TokenSHAP: Interpretazione dei Modelli Linguistici di Grandi Dimensioni con Stima Monte Carlo dei Valori Shapley

1 Introduzione

I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale, raggiungendo prestazioni di livello umano in numerosi compiti. Tuttavia, la loro natura di "scatola nera" presenta significative sfide di interpretabilità, specialmente in applicazioni critiche come l'assistenza sanitaria e l'analisi legale dove comprendere il processo decisionale dell'IA è essenziale.

TokenSHAP affronta questa sfida adattando i valori Shapley della teoria dei giochi cooperativi per attribuire importanza a singoli token o sottostringhe all'interno dei prompt di input. Questo fornisce un quadro rigoroso per comprendere come le diverse parti di un input contribuiscono alla risposta del modello.

2 Lavori Correlati

2.1 Interpretabilità nel Machine Learning

I metodi di interpretabilità sono ampiamente categorizzati in approcci di scatola nera e scatola trasparente. Metodi di scatola nera come LIME e SHAP forniscono spiegazioni senza richiedere l'accesso interno al modello, mentre metodi di scatola trasparente come le mappe di salienza basate su gradienti e la propagazione della rilevanza per strati richiedono la conoscenza completa dell'architettura del modello.

2.2 Interpretabilità nell'Elaborazione del Linguaggio Naturale

Nell'NLP, le tecniche di visualizzazione dell'attenzione sono state ampiamente utilizzate, ma spesso non riescono a fornire misure quantitative di importanza. Approcci recenti hanno esplorato metodi di attribuzione delle feature specificamente progettati per modelli linguistici, sebbene affrontino sfide con input di lunghezza variabile e dipendenze contestuali.

3 Metodologia TokenSHAP

3.1 Quadro Teorico

TokenSHAP estende i valori Shapley a input di testo di lunghezza variabile trattando i token come giocatori in un gioco cooperativo. La funzione di payoff è definita come la similarità tra gli output del modello con e senza specifici sottoinsiemi di token.

3.2 Approccio di Campionamento Monte Carlo

Per affrontare la complessità computazionale, TokenSHAP impiega il campionamento Monte Carlo, permutando casualmente i token e calcolando i contributi marginali. Questo approccio scala efficientemente con la lunghezza dell'input mantenendo garanzie teoriche.

4 Implementazione Tecnica

4.1 Formalizzazione Matematica

Il valore Shapley per il token $i$ è definito come:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

dove $N$ è l'insieme di tutti i token, $S$ è un sottoinsieme che esclude il token $i$, e $v(S)$ è la funzione di valore che misura la qualità dell'output del modello per il sottoinsieme $S$.

4.2 Algoritmo e Pseudocodice

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 Risultati Sperimentali

5.1 Metriche di Valutazione

TokenSHAP è stato valutato utilizzando tre metriche chiave: allineamento con i giudizi umani (misurato dalla correlazione con i punteggi di importanza annotati dagli umani), fedeltà (capacità di riflettere il comportamento effettivo del modello) e coerenza (stabilità attraverso input simili).

5.2 Analisi Comparativa

Esperimenti su diversi prompt e architetture LLM (inclusi GPT-3, BERT e T5) hanno dimostrato la superiorità di TokenSHAP rispetto ai metodi baseline come LIME e quelli basati sull'attenzione. Il metodo ha mostrato un miglioramento del 25% nell'allineamento umano e punteggi di fedeltà migliori del 30% rispetto agli approcci esistenti.

Allineamento Umano

Miglioramento del 25%

Fedeltà

Punteggi Migliori del 30%

Coerenza

Elevata Stabilità

6 Analisi Originale

TokenSHAP rappresenta un avanzamento significativo nell'interpretabilità degli LLM colmando il divario tra teoria dei giochi ed elaborazione del linguaggio naturale. Le fondamenta teoriche del metodo nei valori Shapley forniscono un approccio matematicamente rigoroso all'attribuzione delle feature, affrontando le limitazioni dei metodi euristici come la visualizzazione dell'attenzione. Similmente a come CycleGAN ha introdotto la coerenza ciclica per la traduzione di immagini non accoppiate, TokenSHAP stabilisce coerenza nell'attribuzione dell'importanza dei token attraverso diverse variazioni di input.

L'approccio di campionamento Monte Carlo dimostra una notevole efficienza computazionale, riducendo la complessità esponenziale del calcolo esatto dei valori Shapley a livelli pratici per applicazioni reali. Questo guadagno di efficienza è paragonabile ai progressi nei metodi di inferenza approssimata osservati nell'apprendimento profondo bayesiano, come documentato nel Journal of Machine Learning Research. La capacità del metodo di gestire input di lunghezza variabile lo distingue dalle tecniche tradizionali di attribuzione delle feature progettate per input di dimensione fissa.

La valutazione di TokenSHAP su multiple architetture di modello rivela importanti intuizioni sul comportamento degli LLM. I miglioramenti consistenti nell'allineamento con i giudizi umani suggeriscono che il metodo cattura nozioni intuitive di importanza meglio degli approcci basati sull'attenzione. Ciò si allinea con i risultati del gruppo Stanford HAI, che ha enfatizzato la necessità di metodi di interpretabilità che corrispondano ai processi cognitivi umani. Le metriche di fedeltà indicano che TokenSHAP riflette più accuratamente i calcoli effettivi del modello piuttosto che fornire razionalizzazioni post-hoc.

Le capacità di visualizzazione di TokenSHAP abilitano applicazioni pratiche nel debugging del modello e nell'ingegneria dei prompt. Fornendo punteggi quantitativi di importanza, il metodo va oltre le valutazioni qualitative comuni nella visualizzazione dell'attenzione. Questo approccio quantitativo supporta un'analisi più sistematica del comportamento del modello, simile a come le mappe di salienza si sono evolute nell'interpretabilità della visione artificiale. La coerenza del metodo attraverso input simili suggerisce robustezza, affrontando preoccupazioni sulla stabilità dei metodi di interpretabilità sollevate nella letteratura recente del MIT's Computer Science and AI Laboratory.

7 Applicazioni e Direzioni Future

TokenSHAP ha applicazioni immediate nel debugging del modello, ottimizzazione dei prompt e strumenti educativi per l'alfabetizzazione all'IA. Le direzioni future includono l'estensione del metodo a modelli multimodali, l'interpretazione in tempo reale per IA conversazionale e l'integrazione con tecniche di modifica del modello. L'approccio potrebbe anche essere adattato per rilevare bias del modello e garantire un deployment equo dell'IA.

8 Riferimenti

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.