TokenSHAP: Mentafsir Model Bahasa Besar dengan Anggaran Nilai Shapley Monte Carlo

1 Pengenalan

Model bahasa besar (LLM) telah merevolusikan pemprosesan bahasa asli, mencapai prestasi setara manusia dalam pelbagai tugas. Walau bagaimanapun, sifat kotak hitam mereka menimbulkan cabaran boleh tafsir yang signifikan, terutamanya dalam aplikasi kritikal seperti penjagaan kesihatan dan analisis undang-undang di mana pemahaman pembuatan keputusan AI adalah penting.

TokenSHAP menangani cabaran ini dengan mengadaptasi nilai Shapley dari teori permainan koperatif untuk mengaitkan kepentingan kepada token individu atau subrentetan dalam input. Ini menyediakan kerangka kerja yang ketat untuk memahami bagaimana bahagian input yang berbeza menyumbang kepada respons model.

2 Kerja Berkaitan

2.1 Boleh Tafsir dalam Pembelajaran Mesin

Kaedah boleh tafsir secara luas dikategorikan kepada pendekatan kotak hitam dan kotak putih. Kaedah kotak hitam seperti LIME dan SHAP memberikan penjelasan tanpa memerlukan akses dalaman model, manakala kaedah kotak putih seperti peta kejelasan berasaskan kecerunan dan penyebaran relevan berlapis memerlukan pengetahuan penuh tentang seni bina model.

2.2 Boleh Tafsir dalam Pemprosesan Bahasa Asli

Dalam NLP, teknik visualisasi perhatian telah digunakan secara meluas, tetapi mereka sering gagal memberikan ukuran kepentingan kuantitatif. Pendekatan terkini telah meneroka kaedah atribusi ciri yang direka khusus untuk model bahasa, walaupun mereka menghadapi cabaran dengan input panjang berubah-ubah dan kebergantungan kontekstual.

3 Metodologi TokenSHAP

3.1 Kerangka Teoretikal

TokenSHAP melanjutkan nilai Shapley kepada input teks panjang berubah-ubah dengan memperlakukan token sebagai pemain dalam permainan koperatif. Fungsi bayaran ditakrifkan sebagai persamaan antara output model dengan dan tanpa subset token tertentu.

3.2 Pendekatan Persampelan Monte Carlo

Untuk menangani kerumitan pengiraan, TokenSHAP menggunakan persampelan Monte Carlo, secara rawak menyusun semula token dan mengira sumbangan marginal. Pendekatan ini berskala cekap dengan panjang input sambil mengekalkan jaminan teoretikal.

4 Pelaksanaan Teknikal

4.1 Formulasi Matematik

Nilai Shapley untuk token $i$ ditakrifkan sebagai:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

di mana $N$ ialah set semua token, $S$ ialah subset yang tidak termasuk token $i$, dan $v(S)$ ialah fungsi nilai yang mengukur kualiti output model untuk subset $S$.

4.2 Algoritma dan Kod Semu

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 Keputusan Eksperimen

5.1 Metrik Penilaian

TokenSHAP dinilai menggunakan tiga metrik utama: penjajaran dengan pertimbangan manusia (diukur oleh korelasi dengan skor kepentingan yang dianotasi manusia), kesetiaan (keupayaan untuk mencerminkan tingkah laku model sebenar), dan konsistensi (kestabilan merentas input yang serupa).

5.2 Analisis Perbandingan

Eksperimen merentas pelbagai input dan seni bina LLM (termasuk GPT-3, BERT, dan T5) menunjukkan keunggulan TokenSHAP berbanding garis dasar seperti LIME dan kaedah berasaskan perhatian. Kaedah ini menunjukkan peningkatan 25% dalam penjajaran manusia dan 30% skor kesetiaan yang lebih baik berbanding pendekatan sedia ada.

Penjajaran Manusia

Peningkatan 25%

Kesetiaan

Skor 30% Lebih Baik

Konsistensi

Kestabilan Tinggi

6 Analisis Asal

TokenSHAP mewakili kemajuan signifikan dalam kebolehtafsiran LLM dengan menjambatani teori permainan dan pemprosesan bahasa asli. Asas teoretikal kaedah dalam nilai Shapley menyediakan pendekatan matematik yang ketat untuk atribusi ciri, menangani batasan kaedah berasaskan heuristik seperti visualisasi perhatian. Serupa dengan bagaimana CycleGAN memperkenalkan konsistensi kitaran untuk terjemahan imej tidak berpasangan, TokenSHAP mewujudkan konsistensi dalam atribusi kepentingan token merentas variasi input yang berbeza.

Pendekatan persampelan Monte Carlo menunjukkan kecekapan pengiraan yang luar biasa, mengurangkan kerumitan eksponen pengiraan nilai Shapley tepat ke tahap praktikal untuk aplikasi dunia sebenar. Keuntungan kecekapan ini setanding dengan kemajuan dalam kaedah inferens anggaran yang dilihat dalam pembelajaran mendalam Bayesian, seperti yang didokumenkan dalam Journal of Machine Learning Research. Keupayaan kaedah untuk mengendalikan input panjang berubah-ubah membezakannya dari teknik atribusi ciri tradisional yang direka untuk input saiz tetap.

Penilaian TokenSHAP merentas pelbagai seni bina model mendedahkan pandangan penting tentang tingkah laku LLM. Peningkatan konsisten dalam penjajaran dengan pertimbangan manusia mencadangkan bahawa kaedah ini menangkap tanggapan intuitif kepentingan lebih baik daripada pendekatan berasaskan perhatian. Ini selari dengan penemuan dari kumpulan Stanford HAI, yang telah menekankan keperluan untuk kaedah kebolehtafsiran yang sepadan dengan proses kognitif manusia. Metrik kesetiaan menunjukkan bahawa TokenSHAP lebih tepat mencerminkan pengiraan model sebenar daripada memberikan rasionalisasi pasca-hoc.

Keupayaan visualisasi TokenSHAP membolehkan aplikasi praktikal dalam penyahpepijatan model dan kejuruteraan input. Dengan menyediakan skor kepentingan kuantitatif, kaedah ini melangkaui penilaian kualitatif yang biasa dalam visualisasi perhatian. Pendekatan kuantitatif ini menyokong analisis tingkah laku model yang lebih sistematik, serupa dengan bagaimana peta kejelasan berkembang dalam kebolehtafsiran penglihatan komputer. Konsistensi kaedah merentas input yang serupa mencadangkan keteguhan, menangani kebimbangan tentang kestabilan kaedah kebolehtafsiran yang dibangkitkan dalam literatur terkini dari Makmal Sains Komputer dan AI MIT.

7 Aplikasi dan Hala Tuju Masa Depan

TokenSHAP mempunyai aplikasi segera dalam penyahpepijatan model, pengoptimuman input, dan alat pendidikan untuk literasi AI. Hala tuju masa depan termasuk memperluas kaedah kepada model multimodal, tafsiran masa nyata untuk AI perbualan, dan integrasi dengan teknik penyuntingan model. Pendekatan ini juga boleh disesuaikan untuk mengesan bias model dan memastikan penyebaran AI yang adil.

8 Rujukan

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.