TokenSHAP : Interprétation des grands modèles de langage par estimation de la valeur de Shapley avec Monte Carlo

1 Introduction

Les grands modèles de langage (LLM) ont révolutionné le traitement du langage naturel, atteignant des performances de niveau humain sur de nombreuses tâches. Cependant, leur nature de boîte noire présente d'importants défis d'interprétabilité, particulièrement dans des applications critiques comme la santé et l'analyse juridique où la compréhension des décisions de l'IA est essentielle.

TokenSHAP relève ce défi en adaptant les valeurs de Shapley de la théorie des jeux coopératifs pour attribuer l'importance aux tokens individuels ou sous-chaînes dans les invites d'entrée. Cela fournit un cadre rigoureux pour comprendre comment les différentes parties d'une entrée contribuent à la réponse d'un modèle.

2 Travaux connexes

2.1 Interprétabilité en apprentissage automatique

Les méthodes d'interprétabilité sont largement catégorisées en approches boîte noire et boîte blanche. Les méthodes boîte noire comme LIME et SHAP fournissent des explications sans nécessiter l'accès aux internes du modèle, tandis que les méthodes boîte blanche comme les cartes de saillance basées sur les gradients et la propagation de pertinence couche par couche nécessitent une connaissance complète de l'architecture du modèle.

2.2 Interprétabilité en traitement du langage naturel

En TALN, les techniques de visualisation de l'attention ont été largement utilisées, mais elles échouent souvent à fournir des mesures quantitatives d'importance. Les approches récentes ont exploré des méthodes d'attribution de caractéristiques spécifiquement conçues pour les modèles de langage, bien qu'elles soient confrontées à des défis avec les entrées de longueur variable et les dépendances contextuelles.

3 Méthodologie TokenSHAP

3.1 Cadre théorique

TokenSHAP étend les valeurs de Shapley aux entrées textuelles de longueur variable en traitant les tokens comme des joueurs dans un jeu coopératif. La fonction de gain est définie comme la similarité entre les sorties du modèle avec et sans des sous-ensembles spécifiques de tokens.

3.2 Approche par échantillonnage Monte Carlo

Pour résoudre la complexité computationnelle, TokenSHAP emploie l'échantillonnage Monte Carlo, en permutant aléatoirement les tokens et en calculant les contributions marginales. Cette approche s'adapte efficacement à la longueur des entrées tout en maintenant des garanties théoriques.

4 Implémentation technique

4.1 Formulation mathématique

La valeur de Shapley pour le token $i$ est définie comme :

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

où $N$ est l'ensemble de tous les tokens, $S$ est un sous-ensemble excluant le token $i$, et $v(S)$ est la fonction de valeur mesurant la qualité de sortie du modèle pour le sous-ensemble $S$.

4.2 Algorithme et pseudocode

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 Résultats expérimentaux

5.1 Métriques d'évaluation

TokenSHAP a été évalué en utilisant trois métriques clés : l'alignement avec les jugements humains (mesuré par la corrélation avec les scores d'importance annotés par des humains), la fidélité (capacité à refléter le comportement réel du modèle) et la cohérence (stabilité sur des entrées similaires).

5.2 Analyse comparative

Les expériences sur diverses invites et architectures de LLM (incluant GPT-3, BERT et T5) ont démontré la supériorité de TokenSHAP par rapport aux méthodes de référence comme LIME et les méthodes basées sur l'attention. La méthode a montré une amélioration de 25% de l'alignement humain et des scores de fidélité 30% meilleurs par rapport aux approches existantes.

Alignement humain

Amélioration de 25%

Fidélité

Scores 30% meilleurs

Cohérence

Stabilité élevée

6 Analyse originale

TokenSHAP représente une avancée significative dans l'interprétabilité des LLM en reliant la théorie des jeux et le traitement du langage naturel. Le fondement théorique de la méthode dans les valeurs de Shapley fournit une approche mathématiquement rigoureuse pour l'attribution de caractéristiques, adressant les limitations des méthodes heuristiques comme la visualisation de l'attention. Similairement à la façon dont CycleGAN a introduit la cohérence cyclique pour la traduction d'images non appariées, TokenSHAP établit une cohérence dans l'attribution d'importance des tokens à travers différentes variations d'entrée.

L'approche par échantillonnage Monte Carlo démontre une efficacité computationnelle remarquable, réduisant la complexité exponentielle du calcul exact des valeurs de Shapley à des niveaux pratiques pour les applications réelles. Ce gain d'efficacité est comparable aux avancées dans les méthodes d'inférence approximative observées dans l'apprentissage profond bayésien, comme documenté dans le Journal of Machine Learning Research. La capacité de la méthode à gérer des entrées de longueur variable la distingue des techniques traditionnelles d'attribution de caractéristiques conçues pour des entrées de taille fixe.

L'évaluation de TokenSHAP sur plusieurs architectures de modèle révèle des insights importants sur le comportement des LLM. Les améliorations constantes de l'alignement avec les jugements humains suggèrent que la méthode capture mieux les notions intuitives d'importance que les approches basées sur l'attention. Cela correspond aux conclusions du groupe Stanford HAI, qui a souligné le besoin de méthodes d'interprétabilité correspondant aux processus cognitifs humains. Les métriques de fidélité indiquent que TokenSHAP reflète plus précisément les calculs réels du modèle plutôt que de fournir des rationalisations a posteriori.

Les capacités de visualisation de TokenSHAP permettent des applications pratiques dans le débogage de modèles et l'ingénierie des invites. En fournissant des scores d'importance quantitatifs, la méthode va au-delà des évaluations qualitatives courantes dans la visualisation de l'attention. Cette approche quantitative soutient une analyse plus systématique du comportement des modèles, similairement à l'évolution des cartes de saillance dans l'interprétabilité en vision par ordinateur. La cohérence de la méthode sur des entrées similaires suggère une robustesse, adressant les préoccupations sur la stabilité des méthodes d'interprétabilité soulevées dans la littérature récente du MIT Computer Science and AI Laboratory.

7 Applications et orientations futures

TokenSHAP a des applications immédiates dans le débogage de modèles, l'optimisation des invites et les outils éducatifs pour la littératie en IA. Les orientations futures incluent l'extension de la méthode aux modèles multimodaux, l'interprétation en temps réel pour l'IA conversationnelle et l'intégration avec les techniques d'édition de modèles. L'approche pourrait également être adaptée pour détecter les biais des modèles et assurer un déploiement équitable de l'IA.

8 Références

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.