TokenSHAP: Interpretação de Modelos de Linguagem de Grande Porte com Estimação de Valores de Shapley por Monte Carlo

1 Introdução

Os modelos de linguagem de grande porte (LLMs) revolucionaram o processamento de linguagem natural, alcançando desempenho ao nível humano em inúmeras tarefas. No entanto, a sua natureza de caixa preta apresenta desafios significativos de interpretabilidade, particularmente em aplicações críticas como saúde e análise jurídica, onde a compreensão da tomada de decisão da IA é essencial.

O TokenSHAP aborda este desafio adaptando os valores de Shapley da teoria dos jogos cooperativos para atribuir importância a tokens individuais ou substrings dentro dos prompts de entrada. Isto fornece um enquadramento rigoroso para compreender como diferentes partes de uma entrada contribuem para a resposta do modelo.

2 Trabalhos Relacionados

2.1 Interpretabilidade em Aprendizagem de Máquina

Os métodos de interpretabilidade são amplamente categorizados em abordagens de caixa preta e caixa branca. Métodos de caixa preta como LIME e SHAP fornecem explicações sem exigir acesso interno ao modelo, enquanto métodos de caixa branca como mapas de saliência baseados em gradientes e propagação de relevância por camadas requerem conhecimento completo da arquitetura do modelo.

2.2 Interpretabilidade em Processamento de Linguagem Natural

Em PLN, as técnicas de visualização de atenção têm sido amplamente utilizadas, mas frequentemente falham em fornecer medidas quantitativas de importância. Abordagens recentes exploraram métodos de atribuição de características especificamente concebidos para modelos de linguagem, embora enfrentem desafios com entradas de comprimento variável e dependências contextuais.

3 Metodologia TokenSHAP

3.1 Enquadramento Teórico

O TokenSHAP estende os valores de Shapley para entradas de texto de comprimento variável, tratando os tokens como jogadores num jogo cooperativo. A função de payoff é definida como a similaridade entre as saídas do modelo com e sem subconjuntos específicos de tokens.

3.2 Abordagem de Amostragem de Monte Carlo

Para lidar com a complexidade computacional, o TokenSHAP emprega amostragem de Monte Carlo, permutando aleatoriamente os tokens e calculando contribuições marginais. Esta abordagem escala eficientemente com o comprimento da entrada, mantendo garantias teóricas.

4 Implementação Técnica

4.1 Formulação Matemática

O valor de Shapley para o token $i$ é definido como:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

onde $N$ é o conjunto de todos os tokens, $S$ é um subconjunto excluindo o token $i$, e $v(S)$ é a função de valor que mede a qualidade da saída do modelo para o subconjunto $S$.

4.2 Algoritmo e Pseudocódigo

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 Resultados Experimentais

5.1 Métricas de Avaliação

O TokenSHAP foi avaliado usando três métricas principais: alinhamento com julgamentos humanos (medido pela correlação com pontuações de importância anotadas por humanos), fidelidade (capacidade de refletir o comportamento real do modelo) e consistência (estabilidade entre entradas semelhantes).

5.2 Análise Comparativa

Experiências através de diversos prompts e arquiteturas de LLM (incluindo GPT-3, BERT e T5) demonstraram a superioridade do TokenSHAP sobre métodos de referência como LIME e métodos baseados em atenção. O método mostrou uma melhoria de 25% no alinhamento humano e 30% melhores pontuações de fidelidade em comparação com abordagens existentes.

Alinhamento Humano

25% de Melhoria

Fidelidade

30% Melhores Pontuações

Consistência

Alta Estabilidade

6 Análise Original

O TokenSHAP representa um avanço significativo na interpretabilidade de LLMs ao fazer a ponte entre a teoria dos jogos e o processamento de linguagem natural. A base teórica do método nos valores de Shapley fornece uma abordagem matematicamente rigorosa para a atribuição de características, abordando limitações de métodos baseados em heurísticas como a visualização de atenção. Semelhante à forma como o CycleGAN introduziu a consistência cíclica para a tradução de imagens não emparelhadas, o TokenSHAP estabelece consistência na atribuição de importância de tokens através de diferentes variações de entrada.

A abordagem de amostragem de Monte Carlo demonstra uma eficiência computacional notável, reduzindo a complexidade exponencial do cálculo exato dos valores de Shapley para níveis práticos para aplicações do mundo real. Este ganho de eficiência é comparável aos avanços nos métodos de inferência aproximada vistos na aprendizagem profunda bayesiana, conforme documentado no Journal of Machine Learning Research. A capacidade do método de lidar com entradas de comprimento variável distingue-o das técnicas tradicionais de atribuição de características concebidas para entradas de tamanho fixo.

A avaliação do TokenSHAP através de múltiplas arquiteturas de modelo revela informações importantes sobre o comportamento dos LLMs. As melhorias consistentes no alinhamento com julgamentos humanos sugerem que o método captura noções intuitivas de importância melhor do que as abordagens baseadas em atenção. Isto está alinhado com as descobertas do grupo Stanford HAI, que enfatizou a necessidade de métodos de interpretabilidade que correspondam aos processos cognitivos humanos. As métricas de fidelidade indicam que o TokenSHAP reflete com mais precisão os cálculos reais do modelo, em vez de fornecer racionalizações post-hoc.

As capacidades de visualização do TokenSHAP permitem aplicações práticas na depuração de modelos e engenharia de prompts. Ao fornecer pontuações quantitativas de importância, o método vai além das avaliações qualitativas comuns na visualização de atenção. Esta abordagem quantitativa suporta uma análise mais sistemática do comportamento do modelo, semelhante à forma como os mapas de saliência evoluíram na interpretabilidade da visão computacional. A consistência do método entre entradas semelhantes sugere robustez, abordando preocupações sobre a estabilidade dos métodos de interpretabilidade levantadas em literatura recente do MIT's Computer Science and AI Laboratory.

7 Aplicações e Direções Futuras

O TokenSHAP tem aplicações imediatas na depuração de modelos, otimização de prompts e ferramentas educacionais para literacia em IA. Direções futuras incluem estender o método a modelos multimodais, interpretação em tempo real para IA conversacional e integração com técnicas de edição de modelos. A abordagem também poderia ser adaptada para detetar enviesamentos do modelo e garantir uma implantação justa da IA.

8 Referências

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.