1 서론
대규모 언어 모델(LLM)은 자연어 처리 분야를 혁신적으로 변화시켰으며, 다양한 작업에서 인간 수준의 성능을 달성하고 있습니다. 그러나 이들의 블랙박스 특성은 특히 의료 및 법률 분석과 같이 AI 의사결정 과정을 이해해야 하는 중요한 응용 분야에서 상당한 해석 가능성 문제를 제기합니다.
TokenSHAP는 협력 게임 이론의 샤플리 값을 적용하여 입력 프롬프트 내 개별 토큰이나 부분 문자열에 대한 중요도를 귀속시킴으로써 이러한 문제를 해결합니다. 이를 통해 입력의 다양한 부분이 모델의 응답에 어떻게 기여하는지 이해하기 위한 엄밀한 프레임워크를 제공합니다.
2 관련 연구
2.1 머신러닝 해석 가능성
해석 가능성 방법은 블랙박스와 화이트박스 접근법으로 크게 분류됩니다. LIME과 SHAP와 같은 블랙박스 방법은 모델 내부 접근 없이 설명을 제공하는 반면, 그래디언트 기반의 현저성 맵과 계층별 관련성 전파와 같은 화이트박스 방법은 전체 모델 아키텍처 지식이 필요합니다.
2.2 자연어 처리 해석 가능성
NLP 분야에서는 어텐션 시각화 기술이 널리 사용되었지만, 종종 정량적 중요도 측정을 제공하지 못합니다. 최근 접근법들은 언어 모델에 특화된 특징 귀속 방법을 탐구하고 있으나, 가변 길이 입력과 문맥적 의존성으로 인한 어려움에 직면하고 있습니다.
3 TokenSHAP 방법론
3.1 이론적 프레임워크
TokenSHAP는 토큰을 협력 게임의 플레이어로 취급하여 샤플리 값을 가변 길이 텍스트 입력으로 확장합니다. 보수 함수는 특정 토큰 부분 집합이 포함된 경우와 포함되지 않은 경우의 모델 출력 간 유사도로 정의됩니다.
3.2 몬테카를로 샘플링 접근법
계산 복잡성 문제를 해결하기 위해 TokenSHAP는 몬테카를로 샘플링을 사용하며, 토큰을 무작위로 순열화하고 한계 기여도를 계산합니다. 이 접근법은 이론적 보장을 유지하면서 입력 길이에 따라 효율적으로 확장됩니다.
4 기술 구현
4.1 수학적 공식화
토큰 $i$에 대한 샤플리 값은 다음과 같이 정의됩니다:
$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$
여기서 $N$은 모든 토큰의 집합, $S$는 토큰 $i$를 제외한 부분 집합, $v(S)$는 부분 집합 $S$에 대한 모델 출력 품질을 측정하는 값 함수입니다.
4.2 알고리즘과 의사코드
def tokenshap_importance(text, model, num_samples=1000):
tokens = tokenize(text)
n = len(tokens)
shapley_values = np.zeros(n)
for _ in range(num_samples):
permutation = random_permutation(n)
for i in range(n):
S = set(permutation[:i])
with_token = model.predict(include_tokens(S | {permutation[i]}))
without_token = model.predict(include_tokens(S))
marginal_contribution = similarity(with_token, without_token)
shapley_values[permutation[i]] += marginal_contribution
return shapley_values / num_samples
5 실험 결과
5.1 평가 지표
TokenSHAP는 세 가지 주요 지표를 사용하여 평가되었습니다: 인간 판단과의 일치도(인간이 주석을 단 중요도 점수와의 상관관계로 측정), 신뢰성(실제 모델 동작을 반영하는 능력), 일관성(유사한 입력 간 안정성).
5.2 비교 분석
다양한 프롬프트와 LLM 아키텍처(GPT-3, BERT, T5 포함)를 대상으로 한 실험에서 TokenSHAP는 LIME 및 어텐션 기반 방법과 같은 기준선보다 우수한 성능을 입증했습니다. 이 방법은 기존 접근법 대비 인간 일치도에서 25% 향상, 신뢰성 점수에서 30% 더 나은 결과를 보였습니다.
인간 일치도
25% 향상
신뢰성
30% 더 나은 점수
일관성
높은 안정성
6 원본 분석
TokenSHAP는 게임 이론과 자연어 처리를 연결함으로써 LLM 해석 가능성 분야에서 중요한 진전을 나타냅니다. 샤플리 값에 기반한 이 방법의 이론적 기초는 경험적 기반 방법(어텐션 시각화 등)의 한계를 해결하는 수학적으로 엄밀한 특징 귀속 접근법을 제공합니다. CycleGAN이 짝을 이루지 않은 이미지 변환을 위해 순환 일관성을 도입한 것과 유사하게, TokenSHAP는 다양한 입력 변형에 걸쳐 토큰 중요도 귀속의 일관성을 확립합니다.
몬테카를로 샘플링 접근법은 현저한 계산 효율성을 보여주며, 정확한 샤플리 값 계산의 지수적 복잡도를 실제 응용에 적합한 수준으로 줄입니다. 이러한 효율성 향상은 Journal of Machine Learning Research에 문서화된 베이지안 딥러닝의 근사 추론 방법 발전과 비교할 만합니다. 이 방법의 가변 길이 입력 처리 능력은 고정 크기 입력을 위해 설계된 전통적 특징 귀속 기술과 차별화됩니다.
여러 모델 아키텍처에 걸친 TokenSHAP 평가는 LLM 동작에 대한 중요한 통찰을 드러냅니다. 인간 판단과의 일관된 일치도 향상은 이 방법이 어텐션 기반 접근법보다 직관적 중요도 개념을 더 잘 포착함을 시사합니다. 이는 인간 인지 과정과 일치하는 해석 가능성 방법의 필요성을 강조한 Stanford HAI 그룹의 연구 결과와 일치합니다. 신뢰성 지표는 TokenSHAP가 사후 합리화를 제공하기보다 실제 모델 계산을 더 정확하게 반영함을 나타냅니다.
TokenSHAP의 시각화 기능은 모델 디버깅과 프롬프트 엔지니어링에서 실질적인 응용을 가능하게 합니다. 정량적 중요도 점수를 제공함으로써, 이 방법은 어텐션 시각화에서 흔한 정성적 평가를 넘어섭니다. 이러한 정량적 접근법은 컴퓨터 비전 해석 가능성에서 현저성 맵이 진화한 방식과 유사하게 모델 동작에 대한 더 체계적인 분석을 지원합니다. 유사한 입력 간 일관성은 견고성을 시사하며, MIT 컴퓨터 과학 및 AI 연구소의 최근 문헌에서 제기된 해석 가능성 방법의 안정성에 대한 우려를 해결합니다.
7 응용 및 향후 방향
TokenSHAP는 모델 디버깅, 프롬프트 최적화, AI 이해도를 위한 교육 도구에서 즉각적인 응용 가능성을 가지고 있습니다. 향후 방향으로는 다중 모달 모델로의 방법 확장, 대화형 AI를 위한 실시간 해석, 모델 편집 기술과의 통합이 포함됩니다. 이 접근법은 모델 편향 감지와 공정한 AI 배포 보장을 위해 적용될 수도 있습니다.
8 참고문헌
- Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
- Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
- Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
- Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
- Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.