TokenSHAP: Interpretación de Modelos de Lenguaje Grandes con Estimación de Valores Shapley por Monte Carlo

1 Introducción

Los modelos de lenguaje grandes (LLMs) han revolucionado el procesamiento del lenguaje natural, logrando un rendimiento a nivel humano en numerosas tareas. Sin embargo, su naturaleza de caja negra presenta desafíos significativos de interpretabilidad, particularmente en aplicaciones críticas como la atención médica y el análisis legal donde comprender la toma de decisiones de la IA es esencial.

TokenSHAP aborda este desafío adaptando los valores Shapley de la teoría de juegos cooperativos para atribuir importancia a tokens individuales o subcadenas dentro de las entradas. Esto proporciona un marco riguroso para comprender cómo las diferentes partes de una entrada contribuyen a la respuesta del modelo.

2 Trabajos Relacionados

2.1 Interpretabilidad en Aprendizaje Automático

Los métodos de interpretabilidad se clasifican ampliamente en enfoques de caja negra y caja blanca. Métodos de caja negra como LIME y SHAP proporcionan explicaciones sin requerir acceso interno al modelo, mientras que métodos de caja blanca como mapas de relevancia basados en gradientes y propagación de relevancia por capas requieren conocimiento completo de la arquitectura del modelo.

2.2 Interpretabilidad en Procesamiento de Lenguaje Natural

En PLN, las técnicas de visualización de atención han sido ampliamente utilizadas, pero a menudo no logran proporcionar medidas cuantitativas de importancia. Enfoques recientes han explorado métodos de atribución de características específicamente diseñados para modelos de lenguaje, aunque enfrentan desafíos con entradas de longitud variable y dependencias contextuales.

3 Metodología TokenSHAP

3.1 Marco Teórico

TokenSHAP extiende los valores Shapley a entradas de texto de longitud variable tratando los tokens como jugadores en un juego cooperativo. La función de utilidad se define como la similitud entre las salidas del modelo con y sin subconjuntos específicos de tokens.

3.2 Enfoque de Muestreo Monte Carlo

Para abordar la complejidad computacional, TokenSHAP emplea muestreo Monte Carlo, permutando aleatoriamente tokens y calculando contribuciones marginales. Este enfoque escala eficientemente con la longitud de entrada mientras mantiene garantías teóricas.

4 Implementación Técnica

4.1 Formulación Matemática

El valor Shapley para el token $i$ se define como:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

donde $N$ es el conjunto de todos los tokens, $S$ es un subconjunto que excluye el token $i$, y $v(S)$ es la función de valor que mide la calidad de la salida del modelo para el subconjunto $S$.

4.2 Algoritmo y Pseudocódigo

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 Resultados Experimentales

5.1 Métricas de Evaluación

TokenSHAP fue evaluado usando tres métricas clave: alineación con juicios humanos (medida por correlación con puntuaciones de importancia anotadas por humanos), fidelidad (capacidad de reflejar el comportamiento real del modelo) y consistencia (estabilidad a través de entradas similares).

5.2 Análisis Comparativo

Los experimentos a través de diversos prompts y arquitecturas de LLM (incluyendo GPT-3, BERT y T5) demostraron la superioridad de TokenSHAP sobre métodos de referencia como LIME y métodos basados en atención. El método mostró una mejora del 25% en alineación humana y puntuaciones de fidelidad 30% mejores en comparación con enfoques existentes.

Alineación Humana

25% de Mejora

Fidelidad

30% Mejores Puntuaciones

Consistencia

Alta Estabilidad

6 Análisis Original

TokenSHAP representa un avance significativo en la interpretabilidad de LLMs al tender un puente entre la teoría de juegos y el procesamiento del lenguaje natural. La base teórica del método en valores Shapley proporciona un enfoque matemáticamente riguroso para la atribución de características, abordando limitaciones de métodos heurísticos como la visualización de atención. Similar a cómo CycleGAN introdujo la consistencia cíclica para la traducción de imágenes no emparejadas, TokenSHAP establece consistencia en la atribución de importancia de tokens a través de diferentes variaciones de entrada.

El enfoque de muestreo Monte Carlo demuestra una eficiencia computacional notable, reduciendo la complejidad exponencial del cálculo exacto de valores Shapley a niveles prácticos para aplicaciones del mundo real. Esta ganancia de eficiencia es comparable a los avances en métodos de inferencia aproximada vistos en el aprendizaje profundo bayesiano, como se documenta en el Journal of Machine Learning Research. La capacidad del método para manejar entradas de longitud variable lo distingue de las técnicas tradicionales de atribución de características diseñadas para entradas de tamaño fijo.

La evaluación de TokenSHAP a través de múltiples arquitecturas de modelo revela perspectivas importantes sobre el comportamiento de los LLMs. Las mejoras consistentes en la alineación con juicios humanos sugieren que el método captura nociones intuitivas de importancia mejor que los enfoques basados en atención. Esto se alinea con hallazgos del grupo Stanford HAI, que ha enfatizado la necesidad de métodos de interpretabilidad que coincidan con los procesos cognitivos humanos. Las métricas de fidelidad indican que TokenSHAP refleja con mayor precisión los cálculos reales del modelo en lugar de proporcionar racionalizaciones post-hoc.

Las capacidades de visualización de TokenSHAP permiten aplicaciones prácticas en depuración de modelos e ingeniería de prompts. Al proporcionar puntuaciones de importancia cuantitativas, el método va más allá de las evaluaciones cualitativas comunes en la visualización de atención. Este enfoque cuantitativo respalda un análisis más sistemático del comportamiento del modelo, similar a cómo evolucionaron los mapas de relevancia en la interpretabilidad de visión por computadora. La consistencia del método a través de entradas similares sugiere robustez, abordando preocupaciones sobre la estabilidad de los métodos de interpretabilidad planteadas en literatura reciente del Laboratorio de Ciencias de la Computación e IA del MIT.

7 Aplicaciones y Direcciones Futuras

TokenSHAP tiene aplicaciones inmediatas en depuración de modelos, optimización de prompts y herramientas educativas para alfabetización en IA. Las direcciones futuras incluyen extender el método a modelos multimodales, interpretación en tiempo real para IA conversacional e integración con técnicas de edición de modelos. El enfoque también podría adaptarse para detectar sesgos del modelo y garantizar un despliegue justo de la IA.

8 Referencias

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.