TokenSHAP: Interpretation großer Sprachmodelle mit Monte-Carlo-Shapley-Wert-Schätzung

1 Einleitung

Große Sprachmodelle (LLMs) haben die natürliche Sprachverarbeitung revolutioniert und erreichen in zahlreichen Aufgaben menschliches Leistungsniveau. Allerdings stellt ihre Blackbox-Natur erhebliche Interpretierbarkeitsherausforderungen dar, insbesondere in kritischen Anwendungen wie im Gesundheitswesen und in der Rechtsanalyse, wo das Verständnis der KI-Entscheidungsfindung wesentlich ist.

TokenSHAP adressiert diese Herausforderung, indem Shapley-Werte aus der kooperativen Spieltheorie angepasst werden, um die Bedeutung einzelner Tokens oder Teilzeichenketten innerhalb von Eingabeaufforderungen zuzuordnen. Dies bietet einen rigorosen Rahmen zum Verständnis, wie verschiedene Teile einer Eingabe zur Antwort eines Modells beitragen.

2 Verwandte Arbeiten

2.1 Interpretierbarkeit im Maschinellen Lernen

Interpretierbarkeitsmethoden werden grob in Blackbox- und Whitebox-Ansätze kategorisiert. Blackbox-Methoden wie LIME und SHAP liefern Erklärungen ohne Zugriff auf das Modellinterna, während Whitebox-Methoden wie gradientenbasierte Saliency Maps und Layer-wise Relevance Propagation vollständige Modellarchitekturkenntnis erfordern.

2.2 Interpretierbarkeit in der Sprachverarbeitung

In der NLP wurden Attention-Visualisierungstechniken weit verbreitet eingesetzt, liefern jedoch oft keine quantitativen Bedeutungsmaße. Neuere Ansätze haben Feature-Attributionsmethoden untersucht, die speziell für Sprachmodelle entwickelt wurden, stehen jedoch vor Herausforderungen mit variablen Eingabelängen und kontextuellen Abhängigkeiten.

3 TokenSHAP-Methodik

3.1 Theoretischer Rahmen

TokenSHAP erweitert Shapley-Werte auf variabel lange Texteingaben, indem Tokens als Spieler in einem kooperativen Spiel behandelt werden. Die Auszahlungsfunktion ist definiert als die Ähnlichkeit zwischen Modellausgaben mit und ohne bestimmte Token-Teilmengen.

3.2 Monte-Carlo-Stichprobenverfahren

Um der rechnerischen Komplexität zu begegnen, verwendet TokenSHAP Monte-Carlo-Stichproben, permutiert Tokens zufällig und berechnet marginale Beiträge. Dieser Ansatz skaliert effizient mit der Eingabelänge bei Beibehaltung theoretischer Garantien.

4 Technische Implementierung

4.1 Mathematische Formulierung

Der Shapley-Wert für Token $i$ ist definiert als:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

wobei $N$ die Menge aller Tokens ist, $S$ eine Teilmenge ohne Token $i$ und $v(S)$ die Wertfunktion, die die Modellausgabequalität für Teilmenge $S$ misst.

4.2 Algorithmus und Pseudocode

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 Experimentelle Ergebnisse

5.1 Evaluationsmetriken

TokenSHAP wurde mit drei Schlüsselmetriken evaluiert: Übereinstimmung mit menschlichen Urteilen (gemessen durch Korrelation mit menschlich annotierten Bedeutungswerten), Treue (Fähigkeit, tatsächliches Modellverhalten widerzuspiegeln) und Konsistenz (Stabilität über ähnliche Eingaben hinweg).

5.2 Vergleichende Analyse

Experimente über diverse Aufforderungen und LLM-Architekturen (einschließlich GPT-3, BERT und T5) demonstrierten TokenSHAPs Überlegenheit gegenüber Baseline-Methoden wie LIME und Attention-basierten Methoden. Die Methode zeigte 25% Verbesserung in menschlicher Übereinstimmung und 30% bessere Treue-Werte im Vergleich zu bestehenden Ansätzen.

Menschliche Übereinstimmung

25% Verbesserung

Treue

30% Bessere Werte

Konsistenz

Hohe Stabilität

6 Originalanalyse

TokenSHAP stellt einen bedeutenden Fortschritt in der LLM-Interpretierbarkeit dar, indem Spieltheorie und natürliche Sprachverarbeitung verbunden werden. Die theoretische Grundlage der Methode in Shapley-Werten bietet einen mathematisch rigorosen Ansatz zur Feature-Attribution und adressiert Einschränkungen heuristischer Methoden wie Attention-Visualisierung. Ähnlich wie CycleGAN Zyklenkonsistenz für ungepaarte Bildübersetzung einführte, etabliert TokenSHAP Konsistenz in der Token-Bedeutungszuordnung über verschiedene Eingabevariationen hinweg.

Der Monte-Carlo-Stichprobenansatz demonstriert bemerkenswerte rechnerische Effizienz, reduziert die exponentielle Komplexität der exakten Shapley-Wert-Berechnung auf praktische Niveaus für reale Anwendungen. Dieser Effizienzgewinn ist vergleichbar mit Fortschritten in approximativen Inferenzmethoden, wie sie im Journal of Machine Learning Research dokumentiert sind. Die Fähigkeit der Methode, variabel lange Eingaben zu verarbeiten, unterscheidet sie von traditionellen Feature-Attribution-Techniken, die für feste Eingabegrößen entwickelt wurden.

TokenSHAPs Evaluation über mehrere Modellarchitekturen hinweg enthüllt wichtige Einblicke in das LLM-Verhalten. Die konsistenten Verbesserungen in der Übereinstimmung mit menschlichen Urteilen legen nahe, dass die Methode intuitive Bedeutungskonzepte besser erfasst als Attention-basierte Ansätze. Dies stimmt mit Erkenntnissen der Stanford HAI Group überein, die die Notwendigkeit von Interpretierbarkeitsmethoden betont hat, die menschlichen kognitiven Prozessen entsprechen. Die Treue-Metriken zeigen, dass TokenSHAP tatsächliche Modellberechnungen genauer widerspiegelt, anstatt nachträgliche Rationalisierungen zu liefern.

Die Visualisierungsfähigkeiten von TokenSHAP ermöglichen praktische Anwendungen in Modell-Debugging und Prompt-Engineering. Durch die Bereitstellung quantitativer Bedeutungswerte geht die Methode über qualitative Bewertungen hinaus, die in der Attention-Visualisierung üblich sind. Dieser quantitative Ansatz unterstützt systematischere Analysen des Modellverhaltens, ähnlich wie sich Saliency Maps in der Computer-Vision-Interpretierbarkeit entwickelt haben. Die Konsistenz der Methode über ähnliche Eingaben hinweg deutet auf Robustheit hin und adressiert Bedenken bezüglich der Stabilität von Interpretierbarkeitsmethoden, die in aktueller Literatur des MIT Computer Science and AI Laboratory aufgeworfen wurden.

7 Anwendungen und zukünftige Richtungen

TokenSHAP hat unmittelbare Anwendungen in Modell-Debugging, Prompt-Optimierung und Bildungswerkzeugen für KI-Kompetenz. Zukünftige Richtungen umfassen die Erweiterung der Methode auf multimodale Modelle, Echtzeit-Interpretation für konversationelle KI und Integration mit Modellbearbeitungstechniken. Der Ansatz könnte auch für die Erkennung von Modellverzerrungen und die Sicherstellung fairer KI-Bereitstellung adaptiert werden.

8 Referenzen

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.