TokenSHAP: モンテカルロ・シャープレー価値推定による大規模言語モデルの解釈

1 はじめに

大規模言語モデル（LLM）は自然言語処理に革命をもたらし、多くのタスクで人間レベルの性能を達成しています。しかし、そのブラックボックス性は重大な解釈可能性の課題を提起しており、特に医療や法務分析などの重要な応用分野では、AIの意思決定を理解することが不可欠です。

TokenSHAPはこの課題に対処するため、協力ゲーム理論のシャープレー価値を応用し、入力プロンプト内の個々のトークンや部分文字列への重要度帰属を行います。これにより、入力の異なる部分がモデルの応答にどのように寄与するかを理解するための厳密な枠組みを提供します。

2 関連研究

2.1 機械学習における解釈可能性

解釈可能性手法は、ブラックボックス手法とホワイトボックス手法に大別されます。LIMEやSHAPなどのブラックボックス手法はモデルの内部アクセスを必要とせずに説明を提供する一方、勾配ベースのサリエンシマップや層ごとの関連性伝播などのホワイトボックス手法は完全なモデル構造の知識を必要とします。

2.2 自然言語処理における解釈可能性

自然言語処理では、アテンション可視化技術が広く使用されていますが、定量的な重要度測定を提供できないことが多いです。最近のアプローチでは、言語モデル専用に設計された特徴量帰属手法が探求されていますが、可変長入力と文脈依存性に関する課題に直面しています。

3 TokenSHAP手法

3.1 理論的枠組み

TokenSHAPは、トークンを協力ゲームのプレイヤーとして扱うことで、シャープレー価値を可変長テキスト入力に拡張します。利得関数は、特定のトークン部分集合を含む場合と含まない場合のモデル出力間の類似度として定義されます。

3.2 モンテカルロサンプリング手法

計算複雑性に対処するため、TokenSHAPはモンテカルロサンプリングを採用し、トークンをランダムに並べ替えて限界貢献度を計算します。このアプローチは、理論的保証を維持しながら、入力長に対して効率的にスケールします。

4 技術的実装

4.1 数学的定式化

トークン$i$のシャープレー価値は以下のように定義されます：

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

ここで、$N$は全トークンの集合、$S$はトークン$i$を除く部分集合、$v(S)$は部分集合$S$に対するモデル出力の品質を測定する価値関数です。

4.2 アルゴリズムと疑似コード

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 実験結果

5.1 評価指標

TokenSHAPは、人間の判断との整合性（人間が注釈付けた重要度スコアとの相関で測定）、忠実性（実際のモデル挙動を反映する能力）、一貫性（類似入力間での安定性）の3つの主要指標を用いて評価されました。

5.2 比較分析

多様なプロンプトとLLMアーキテクチャ（GPT-3、BERT、T5を含む）での実験により、TokenSHAPがLIMEやアテンションベース手法などのベースラインを凌駕することが実証されました。本手法は、既存手法と比較して、人間の判断との整合性で25%、忠実性スコアで30%の改善を示しました。

人間判断との整合性

25% 改善

忠実性

30% 向上

一貫性

高い安定性

6 独自分析

TokenSHAPは、ゲーム理論と自然言語処理を橋渡しすることで、LLMの解釈可能性における重要な進歩を表しています。シャープレー価値に基づく本手法の理論的基盤は、特徴量帰属に対する数学的に厳密なアプローチを提供し、アテンション可視化のようなヒューリスティックベース手法の限界に対処します。CycleGANが非対応画像変換にサイクル一貫性を導入したのと同様に、TokenSHAPは異なる入力変種間でのトークン重要度帰属の一貫性を確立します。

モンテカルロサンプリング手法は顕著な計算効率を示し、正確なシャープレー価値計算の指数関数的複雑性を実世界応用の実用的な水準に削減します。この効率性の向上は、Journal of Machine Learning Researchに記載されているベイズ深層学習における近似推論手法の進歩に匹敵します。可変長入力を扱う本手法の能力は、固定サイズ入力用に設計された従来の特徴量帰属技術と区別されます。

複数のモデルアーキテクチャにわたるTokenSHAPの評価は、LLMの挙動に関する重要な知見を明らかにします。人間の判断との整合性における一貫した改善は、本手法がアテンションベース手法よりも直感的な重要度の概念をより良く捉えていることを示唆します。これは、人間の認知プロセスに合致する解釈可能性手法の必要性を強調してきたスタンフォードHAIグループの知見と一致します。忠実性指標は、TokenSHAPが事後の合理化を提供するのではなく、実際のモデル計算をより正確に反映していることを示しています。

TokenSHAPの可視化能力は、モデルデバッグとプロンプトエンジニアリングにおける実用的な応用を可能にします。定量的な重要度スコアを提供することで、本手法はアテンション可視化で一般的な定性的評価を超えます。この定量的アプローチは、コンピュータビジョンの解釈可能性におけるサリエンシマップの進化と同様に、モデル挙動のより体系的な分析を支援します。類似入力間での一貫性は頑健性を示し、MITのComputer Science and AI Laboratoryからの最近の文献で提起された解釈可能性手法の安定性に関する懸念に対処します。

7 応用と今後の方向性

TokenSHAPは、モデルデバッグ、プロンプト最適化、AIリテラシーの教育ツールにおいて即時の応用が可能です。今後の方向性には、マルチモーダルモデルへの手法拡張、対話AIのためのリアルタイム解釈、モデル編集技術との統合が含まれます。このアプローチは、モデルバイアスの検出と公正なAI展開の確保にも適応可能です。

8 参考文献

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.