TokenSHAP：使用蒙地卡羅夏普利值估計解讀大型語言模型

1 緒論

大型語言模型（LLMs）已徹底改變自然語言處理領域，在眾多任務上達到人類水準的表現。然而其黑箱特性帶來顯著的可解釋性挑戰，特別是在醫療保健與法律分析等關鍵應用中，理解AI決策過程至關重要。

TokenSHAP透過將合作賽局理論中的夏普利值應用於輸入提示中的個別詞元或子字串重要性歸因，來解決此挑戰。這為理解輸入內容各部份如何影響模型回應提供了嚴謹的框架。

2 相關研究

2.1 機器學習可解釋性

可解釋性方法大致分為黑箱與白箱兩類。黑箱方法如LIME和SHAP無需存取模型內部即可提供解釋，而白箱方法如基於梯度的顯著性圖和層級相關性傳播則需要完整的模型架構知識。

2.2 自然語言處理可解釋性

在自然語言處理領域，注意力視覺化技術已被廣泛使用，但往往無法提供量化的重要性評估。近期方法探索了專為語言模型設計的特徵歸因方法，但面臨可變長度輸入與上下文依賴性的挑戰。

3 TokenSHAP方法論

3.1 理論框架

TokenSHAP透過將詞元視為合作賽局中的參與者，將夏普利值擴展至可變長度文字輸入。收益函數定義為包含與不包含特定詞元子集時模型輸出的相似度。

3.2 蒙地卡羅採樣方法

為解決計算複雜度問題，TokenSHAP採用蒙地卡羅採樣，隨機排列詞元並計算邊際貢獻。此方法在保持理論保證的同時，能隨輸入長度高效擴展。

4 技術實作

4.1 數學公式

詞元$i$的夏普利值定義為：

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

其中$N$為所有詞元的集合，$S$為排除詞元$i$的子集，$v(S)$為衡量子集$S$模型輸出品質的價值函數。

4.2 演算法與虛擬碼

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 實驗結果

5.1 評估指標

TokenSHAP使用三個關鍵指標進行評估：與人類判斷的一致性（透過與人工標注重要性分數的相關性衡量）、忠實度（反映實際模型行為的能力）以及一致性（在相似輸入間的穩定性）。

5.2 比較分析

跨多種提示與LLM架構（包括GPT-3、BERT和T5）的實驗證明，TokenSHAP相較於LIME和基於注意力的基準方法具有優勢。與現有方法相比，該方法在人類一致性方面提升25%，忠實度分數提高30%。

人類一致性

提升25%

忠實度

分數提高30%

一致性

高穩定性

6 原創分析

TokenSHAP透過橋接賽局理論與自然語言處理，代表了LLM可解釋性的重大進展。該方法基於夏普利值的理論基礎，為特徵歸因提供了數學嚴謹的方法，解決了基於啟發式方法（如注意力視覺化）的局限性。類似於CycleGAN為非配對影像轉換引入循環一致性，TokenSHAP在不同輸入變體間建立了詞元重要性歸因的一致性。

蒙地卡羅採樣方法展現了卓越的計算效率，將精確夏普利值計算的指數級複雜度降低到實際應用可接受的水平。這種效率提升可媲美貝葉斯深度學習中近似推論方法的進展，正如《機器學習研究期刊》所記載。該方法處理可變長度輸入的能力，使其有別於專為固定尺寸輸入設計的傳統特徵歸因技術。

TokenSHAP在多重模型架構上的評估揭示了關於LLM行為的重要見解。與人類判斷一致性的持續改善表明，該方法比基於注意力的方法更能捕捉直觀的重要性概念。這與史丹佛HAI團隊的研究結果一致，該團隊強調需要符合人類認知過程的可解釋性方法。忠實度指標顯示TokenSHAP更準確地反映了實際模型計算，而非提供事後合理化解釋。

TokenSHAP的視覺化能力使模型除錯與提示工程中的實際應用成為可能。透過提供量化的重要性分數，該方法超越了注意力視覺化中常見的定性評估。這種量化方法支援對模型行為進行更系統化的分析，類似於電腦視覺可解釋性中顯著性圖的演進。該方法在相似輸入間的一致性顯示了其穩健性，解決了麻省理工學院電腦科學與人工智慧實驗室近期文獻中提出的可解釋性方法穩定性疑慮。

7 應用與未來方向

TokenSHAP在模型除錯、提示優化和AI素養教育工具方面具有立即應用價值。未來方向包括將方法擴展至多模態模型、對話式AI的即時解讀，以及與模型編輯技術的整合。此方法亦可調整用於檢測模型偏見並確保AI的公平部署。

8 參考文獻

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.