TokenSHAP: Интерпретация больших языковых моделей с помощью оценки значений Шепли методом Монте-Карло

1 Введение

Большие языковые модели (LLM) произвели революцию в обработке естественного языка, достигнув человеческого уровня производительности в многочисленных задачах. Однако их характер "черного ящика" создает значительные проблемы интерпретируемости, особенно в критических приложениях, таких как здравоохранение и юридический анализ, где понимание процесса принятия решений ИИ является необходимым.

TokenSHAP решает эту проблему, адаптируя значения Шепли из теории кооперативных игр для определения важности отдельных токенов или подстрок во входных промптах. Это обеспечивает строгую основу для понимания того, как различные части входных данных влияют на ответ модели.

2 Смежные работы

2.1 Интерпретируемость в машинном обучении

Методы интерпретируемости широко классифицируются на подходы "черного ящика" и "белого ящика". Методы "черного ящика", такие как LIME и SHAP, предоставляют объяснения без доступа к внутренней структуре модели, в то время как методы "белого ящика", такие как карты значимости на основе градиентов и послойное распространение релевантности, требуют полного знания архитектуры модели.

2.2 Интерпретируемость в обработке естественного языка

В NLP техники визуализации внимания широко использовались, но они часто не могут предоставить количественные меры важности. Недавние подходы исследовали методы атрибуции признаков, специально разработанные для языковых моделей, хотя они сталкиваются с проблемами входных данных переменной длины и контекстных зависимостей.

3 Методология TokenSHAP

3.1 Теоретическая основа

TokenSHAP расширяет значения Шепли на входные тексты переменной длины, рассматривая токены как игроков в кооперативной игре. Функция выигрыша определяется как сходство между выходами модели с определенными подмножествами токенов и без них.

3.2 Подход с выборкой Монте-Карло

Для решения проблемы вычислительной сложности TokenSHAP использует выборку Монте-Карло, случайным образом переставляя токены и вычисляя предельные вклады. Этот подход эффективно масштабируется с длиной входных данных, сохраняя теоретические гарантии.

4 Техническая реализация

4.1 Математическая формулировка

Значение Шепли для токена $i$ определяется как:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

где $N$ — множество всех токенов, $S$ — подмножество, исключающее токен $i$, и $v(S)$ — функция ценности, измеряющая качество выходных данных модели для подмножества $S$.

4.2 Алгоритм и псевдокод

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 Экспериментальные результаты

5.1 Метрики оценки

TokenSHAP оценивался с использованием трех ключевых метрик: соответствие человеческим суждениям (измеряемое корреляцией с оценками важности, аннотированными человеком), достоверность (способность отражать фактическое поведение модели) и согласованность (устойчивость на схожих входных данных).

5.2 Сравнительный анализ

Эксперименты на различных промптах и архитектурах LLM (включая GPT-3, BERT и T5) продемонстрировали превосходство TokenSHAP над базовыми методами, такими как LIME и методы на основе внимания. Метод показал улучшение на 25% в соответствии с человеческими суждениями и на 30% лучшие показатели достоверности по сравнению с существующими подходами.

Соответствие человеческим суждениям

Улучшение на 25%

Достоверность

На 30% лучше

Согласованность

Высокая стабильность

6 Оригинальный анализ

TokenSHAP представляет собой значительный прогресс в интерпретируемости LLM, объединяя теорию игр и обработку естественного языка. Теоретическая основа метода в значениях Шепли обеспечивает математически строгий подход к атрибуции признаков, устраняя ограничения эвристических методов, таких как визуализация внимания. Подобно тому, как CycleGAN ввела цикличную согласованность для несопоставленного перевода изображений, TokenSHAP устанавливает согласованность в атрибуции важности токенов при различных вариациях входных данных.

Подход с выборкой Монте-Карло демонстрирует замечательную вычислительную эффективность, снижая экспоненциальную сложность точного вычисления значений Шепли до практических уровней для реальных приложений. Этот выигрыш в эффективности сравним с достижениями в приближенных методах вывода, наблюдаемых в байесовском глубоком обучении, как задокументировано в Journal of Machine Learning Research. Способность метода обрабатывать входные данные переменной длины отличает его от традиционных методов атрибуции признаков, разработанных для входных данных фиксированного размера.

Оценка TokenSHAP на множестве архитектур моделей раскрывает важные инсайты о поведении LLM. Последовательные улучшения в соответствии с человеческими суждениями предполагают, что метод лучше захватывает интуитивные представления о важности, чем подходы на основе внимания. Это согласуется с выводами группы Stanford HAI, которая подчеркивала необходимость методов интерпретируемости, соответствующих человеческим когнитивным процессам. Метрики достоверности указывают, что TokenSHAP более точно отражает фактические вычисления модели, а не предоставляет постфактум рационализации.

Возможности визуализации TokenSHAP позволяют практические применения в отладке моделей и инженерии промптов. Предоставляя количественные оценки важности, метод выходит за рамки качественных оценок, распространенных в визуализации внимания. Этот количественный подход поддерживает более систематический анализ поведения модели, подобно тому, как эволюционировали карты значимости в интерпретируемости компьютерного зрения. Согласованность метода на схожих входных данных предполагает устойчивость, решая проблемы стабильности методов интерпретируемости, поднятые в недавней литературе из MIT's Computer Science and AI Laboratory.

7 Приложения и перспективы

TokenSHAP имеет непосредственные применения в отладке моделей, оптимизации промптов и образовательных инструментах для грамотности в области ИИ. Перспективные направления включают расширение метода на мультимодальные модели, интерпретацию в реальном времени для разговорного ИИ и интеграцию с техниками редактирования моделей. Подход также может быть адаптирован для обнаружения смещений моделей и обеспечения справедливого развертывания ИИ.

8 Список литературы

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.