TokenSHAP：用蒙地卡羅沙普利值估算解讀大型語言模型

1 簡介

大型語言模型（LLMs）徹底革新咗自然語言處理領域，喺多項任務上達到人類水平表現。但係佢哋嘅黑盒特性帶來重大可解釋性挑戰，尤其喺醫療同法律分析等關鍵應用中，理解AI決策過程至關重要。

TokenSHAP通過將合作博弈論中嘅沙普利值應用於輸入提示內嘅個別詞元或子字串，為呢個難題提供解決方案。呢個方法建立咗嚴謹框架，用嚟理解輸入唔同部分點樣影響模型回應。

2 相關研究

2.1 機器學習可解釋性

可解釋性方法大致分為黑盒同白盒兩類。黑盒方法如LIME同SHAP無需接觸模型內部結構即可提供解釋，而白盒方法如基於梯度嘅顯著性圖同層級相關性傳播就需要完全掌握模型架構知識。

2.2 自然語言處理可解釋性

喺NLP領域，注意力可視化技術雖然廣泛應用，但往往未能提供量化重要性量度。近期研究探索專為語言模型設計嘅特徵歸因方法，但面對變長輸入同語境依賴性等挑戰。

3 TokenSHAP方法論

3.1 理論框架

TokenSHAP通過將詞元視作合作博弈中嘅參與者，將沙普利值擴展到變長文本輸入。收益函數定義為包含同排除特定詞元子集時模型輸出之間嘅相似度。

3.2 蒙地卡羅抽樣方法

為解決計算複雜度問題，TokenSHAP採用蒙地卡羅抽樣，隨機排列詞元並計算邊際貢獻。呢個方法能夠隨輸入長度高效擴展，同時保持理論保證。

4 技術實現

4.1 數學公式

詞元$i$嘅沙普利值定義為：

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

其中$N$係所有詞元嘅集合，$S$係排除詞元$i$嘅子集，$v(S)$係衡量子集$S$模型輸出質量嘅價值函數。

4.2 算法與偽代碼

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 實驗結果

5.1 評估指標

TokenSHAP使用三個關鍵指標進行評估：與人類判斷嘅一致性（通過與人工標注重要性分數嘅相關性量度）、忠實度（反映實際模型行為嘅能力）同穩定性（跨相似輸入嘅一致程度）。

5.2 對比分析

跨多種提示同LLM架構（包括GPT-3、BERT同T5）嘅實驗顯示，TokenSHAP喺LIME同基於注意力等方法上表現更優。相比現有方法，呢個方法喺人類一致性方面提升25%，忠實度分數提高30%。

人類一致性

提升25%

忠實度

分數提高30%

穩定性

高度穩定

6 原創分析

TokenSHAP通過連接博弈論同自然語言處理，實現LLM可解釋性嘅重大進步。基於沙普利值嘅理論基礎，為特徵歸因提供數學嚴謹方法，解決咗基於啟發式方法（如注意力可視化）嘅局限。類似CycleGAN為非配對圖像轉換引入循環一致性，TokenSHAP建立咗跨唔同輸入變體嘅詞元重要性歸因一致性。

蒙地卡羅抽樣方法展示卓越計算效率，將精確沙普利值計算嘅指數級複雜度降低到實際應用可行水平。呢個效率提升可媲美貝葉斯深度學習中近似推斷方法嘅進步，正如《機器學習研究期刊》所記載。該方法處理變長輸入嘅能力，令佢有別於為固定尺寸輸入設計嘅傳統特徵歸因技術。

TokenSHAP跨多個模型架構嘅評估揭示咗LLM行為嘅重要見解。與人類判斷一致性嘅持續改善表明，該方法比基於注意力嘅方法更能捕捉直觀重要性概念。呢點與史丹佛HAI團隊嘅發現一致，該團隊強調需要匹配人類認知過程嘅可解釋性方法。忠實度指標顯示TokenSHAP更準確反映實際模型計算，而非提供事後合理化解釋。

TokenSHAP嘅可視化能力實現咗模型調試同提示工程嘅實際應用。通過提供量化重要性分數，該方法超越咗注意力可視化中常見嘅定性評估。呢種量化方法支持更系統化嘅模型行為分析，類似電腦視覺可解釋性中顯著性圖嘅演進。該方法跨相似輸入嘅一致性表明其穩健性，解決咗麻省理工電腦科學與人工智能實驗室近期文獻中對可解釋性方法穩定性嘅關注。

7 應用與未來方向

TokenSHAP喺模型調試、提示優化同AI素養教育工具方面有即時應用。未來方向包括將方法擴展到多模態模型、對話AI實時解讀，以及與模型編輯技術整合。該方法亦可用於檢測模型偏見同確保AI公平部署。

8 參考文獻

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.