TokenSHAP：基于蒙特卡洛沙普利值估计的大语言模型可解释性方法

1 引言

大语言模型（LLMs）彻底改变了自然语言处理领域，在众多任务中实现了人类水平的性能。然而，其黑盒特性带来了显著的可解释性挑战，特别是在医疗健康和法律分析等关键应用中，理解AI决策过程至关重要。

TokenSHAP通过将合作博弈论中的沙普利值应用于输入提示中的单个词元或子字符串重要性归因，解决了这一挑战。这为理解输入的不同部分如何影响模型响应提供了严谨的理论框架。

2 相关工作

2.1 机器学习可解释性

可解释性方法大致分为黑盒和白盒两类方法。黑盒方法（如LIME和SHAP）无需访问模型内部即可提供解释，而白盒方法（如基于梯度的显著性图和分层相关性传播）需要完整的模型架构知识。

2.2 自然语言处理可解释性

在自然语言处理领域，注意力可视化技术已被广泛使用，但往往无法提供定量的重要性度量。最近的方法探索了专门为语言模型设计的特征归因方法，但这些方法在处理变长输入和上下文依赖关系时面临挑战。

3 TokenSHAP方法论

3.1 理论框架

TokenSHAP通过将词元视为合作博弈中的参与者，将沙普利值扩展到变长文本输入。收益函数定义为包含与不包含特定词元子集时模型输出的相似度。

3.2 蒙特卡洛采样方法

为解决计算复杂度问题，TokenSHAP采用蒙特卡洛采样方法，随机排列词元并计算边际贡献。该方法在输入长度增加时仍能高效扩展，同时保持理论保证。

4 技术实现

4.1 数学公式

词元$i$的沙普利值定义为：

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

其中$N$表示所有词元的集合，$S$是不包含词元$i$的子集，$v(S)$是衡量子集$S$对应模型输出质量的价值函数。

4.2 算法与伪代码

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 实验结果

5.1 评估指标

TokenSHAP使用三个关键指标进行评估：与人类判断的一致性（通过与人工标注重要性分数的相关性衡量）、忠实性（反映实际模型行为的能力）和一致性（在相似输入间的稳定性）。

5.2 对比分析

在不同提示和LLM架构（包括GPT-3、BERT和T5）上的实验表明，TokenSHAP在LIME和基于注意力的方法等基线方法上表现出优越性。与现有方法相比，该方法在人类一致性方面提升了25%，忠实性得分提高了30%。

人类一致性

提升25%

忠实性

得分提高30%

一致性

高稳定性

6 原创性分析

TokenSHAP通过连接博弈论和自然语言处理，代表了LLM可解释性领域的重大进展。该方法基于沙普利值的理论基础，为特征归因提供了数学上严谨的方法，解决了基于启发式方法（如注意力可视化）的局限性。类似于CycleGAN为非配对图像翻译引入循环一致性，TokenSHAP在不同输入变体中建立了词元重要性归因的一致性。

蒙特卡洛采样方法展现了卓越的计算效率，将精确沙普利值计算的指数复杂度降低到实际应用可接受的水平。这种效率提升可与贝叶斯深度学习中近似推理方法的进步相媲美，正如《机器学习研究杂志》中记载的那样。该方法处理变长输入的能力使其区别于为固定大小输入设计的传统特征归因技术。

TokenSHAP在多种模型架构上的评估揭示了关于LLM行为的重要见解。与人类判断一致性的持续改进表明，该方法比基于注意力的方法更好地捕捉了直观的重要性概念。这与斯坦福HAI小组的研究结果一致，该小组强调需要与人类认知过程匹配的可解释性方法。忠实性指标表明，TokenSHAP更准确地反映了实际模型计算，而非提供事后合理化解释。

TokenSHAP的可视化能力在模型调试和提示工程中实现了实际应用。通过提供定量的重要性分数，该方法超越了注意力可视化中常见的定性评估。这种定量方法支持对模型行为进行更系统化的分析，类似于显著性图在计算机视觉可解释性中的演进。该方法在相似输入间的一致性表明了其鲁棒性，解决了麻省理工学院计算机科学与人工智能实验室近期文献中提出的关于可解释性方法稳定性的担忧。

7 应用与未来方向

TokenSHAP在模型调试、提示优化和AI素养教育工具中具有直接应用。未来方向包括将该方法扩展到多模态模型、对话AI的实时解释以及与模型编辑技术的集成。该方法也可用于检测模型偏差并确保AI的公平部署。

8 参考文献

Lundberg, S. M., & Lee, S. I. (2017). 解释模型预测的统一方法。神经信息处理系统进展。
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "我为什么要信任你？" 解释任何分类器的预测。ACM SIGKDD。
Vaswani, A., 等. (2017). 注意力就是全部。神经信息处理系统进展。
Zeiler, M. D., & Fergus, R. (2014). 可视化和理解卷积网络。欧洲计算机视觉会议。
Bach, S., 等. (2015). 通过分层相关性传播对非线性分类器决策进行像素级解释。PLoS ONE。