TokenSHAP: تفسیر مدل‌های زبانی بزرگ با تخمین ارزش شپلی مونت‌کارلو

1 مقدمه

مدل‌های زبانی بزرگ (LLMs) انقلابی در پردازش زبان طبیعی ایجاد کرده‌اند و در بسیاری از وظایف به عملکردی در سطح انسانی دست یافته‌اند. با این حال، ماهیت جعبه سیاه آن‌ها چالش‌های قابل توجهی در قابلیت تفسیر ایجاد می‌کند، به ویژه در کاربردهای حیاتی مانند مراقبت‌های بهداشتی و تحلیل حقوقی که درک فرآیند تصمیم‌گیری هوش مصنوعی ضروری است.

TokenSHAP این چالش را با تطبیق مقادیر شپلی از نظریه بازی‌های مشارکتی برای نسبت‌دهی اهمیت به توکن‌ها یا زیررشته‌های فردی در درون ورودی‌ها حل می‌کند. این روش چارچوبی دقیق برای درک چگونگی مشارکت بخش‌های مختلف یک ورودی در پاسخ مدل فراهم می‌آورد.

2 کارهای مرتبط

2.1 قابلیت تفسیر در یادگیری ماشین

روش‌های قابلیت تفسیر به طور کلی به دو دسته جعبه سیاه و جعبه سفید تقسیم می‌شوند. روش‌های جعبه سیاه مانند LIME و SHAP بدون نیاز به دسترسی به درون مدل، تبیین‌هایی ارائه می‌دهند، در حالی که روش‌های جعبه سفید مانند نقشه‌های برجستگی مبتنی بر گرادیان و انتشار ارتباط لایه‌ای به دانش کامل از معماری مدل نیاز دارند.

2.2 قابلیت تفسیر در پردازش زبان طبیعی

در پردازش زبان طبیعی، تکنیک‌های بصری‌سازی توجه به طور گسترده استفاده شده‌اند، اما اغلب در ارائه سنجه‌های کمی اهمیت ناتوان هستند. رویکردهای اخیر روش‌های نسبت‌دهی ویژگی را که به طور خاص برای مدل‌های زبانی طراحی شده‌اند، بررسی کرده‌اند، اگرچه با چالش‌های مربوط به ورودی‌های با طول متغیر و وابستگی‌های متنی مواجه هستند.

3 روش‌شناسی TokenSHAP

3.1 چارچوب نظری

TokenSHAP مقادیر شپلی را با در نظر گرفتن توکن‌ها به عنوان بازیکنان در یک بازی مشارکتی، به ورودی‌های متنی با طول متغیر گسترش می‌دهد. تابع سود به عنوان شباهت بین خروجی‌های مدل با و بدون زیرمجموعه‌های خاص توکن تعریف می‌شود.

3.2 رویکرد نمونه‌گیری مونت‌کارلو

برای مقابله با پیچیدگی محاسباتی، TokenSHAP از نمونه‌گیری مونت‌کارلو استفاده می‌کند که در آن توکن‌ها به طور تصادفی جایگشت می‌شوند و مشارکت‌های حاشیه‌ای محاسبه می‌شوند. این رویکرد با افزایش طول ورودی به طور کارآمد مقیاس می‌شود و در عین حال تضمین‌های نظری را حفظ می‌کند.

4 پیاده‌سازی فنی

4.1 فرمول‌بندی ریاضی

مقدار شپلی برای توکن $i$ به صورت زیر تعریف می‌شود:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

که در آن $N$ مجموعه تمام توکن‌ها است، $S$ یک زیرمجموعه بدون توکن $i$ است، و $v(S)$ تابع ارزشی است که کیفیت خروجی مدل را برای زیرمجموعه $S$ اندازه‌گیری می‌کند.

4.2 الگوریتم و شبه‌کد

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 نتایج تجربی

5.1 معیارهای ارزیابی

TokenSHAP با استفاده از سه معیار کلیدی ارزیابی شد: همسویی با قضاوت‌های انسانی (اندازه‌گیری شده توسط همبستگی با نمرات اهمیت حاشیه‌نویسی شده توسط انسان)، وفاداری (توانایی در بازتاب رفتار واقعی مدل)، و سازگاری (پایداری در ورودی‌های مشابه).

5.2 تحلیل مقایسه‌ای

آزمایش‌ها در انواع مختلف ورودی‌ها و معماری‌های مدل زبانی بزرگ (شامل GPT-3، BERT و T5) برتری TokenSHAP را نسبت به روش‌های پایه مانند LIME و روش‌های مبتنی بر توجه نشان داد. این روش بهبود 25 درصدی در همسویی با انسان و نمرات وفاداری 30 درصد بهتر را در مقایسه با رویکردهای موجود نشان داد.

همسویی با انسان

25% بهبود

وفاداری

30% نمرات بهتر

سازگاری

پایداری بالا

6 تحلیل اصلی

TokenSHAP با پل زدن بین نظریه بازی‌ها و پردازش زبان طبیعی، پیشرفت قابل توجهی در قابلیت تفسیر مدل‌های زبانی بزرگ محسوب می‌شود. پایه نظری این روش در مقادیر شپلی، رویکردی ریاضیاتی دقیق برای نسبت‌دهی ویژگی فراهم می‌آورد و محدودیت‌های روش‌های مبتنی بر اکتشاف مانند بصری‌سازی توجه را برطرف می‌کند. مشابه نحوه‌ای که CycleGAN سازگاری چرخه‌ای را برای ترجمه تصاویر جفت‌نشده معرفی کرد، TokenSHAP سازگاری در نسبت‌دهی اهمیت توکن را در تغییرات مختلف ورودی ایجاد می‌کند.

روش نمونه‌گیری مونت‌کارلو کارایی محاسباتی قابل توجهی نشان می‌دهد و پیچیدگی نمایی محاسبه دقیق مقادیر شپلی را برای کاربردهای دنیای واقعی به سطوح عملی کاهش می‌دهد. این دستاورد کارایی قابل مقایسه با پیشرفت‌های مشاهده شده در روش‌های استنتاج تقریبی در یادگیری عمیق بیزی است، همان‌طور که در مجله تحقیقات یادگیری ماشین مستند شده است. توانایی این روش در مدیریت ورودی‌های با طول متغیر، آن را از تکنیک‌های سنتی نسبت‌دهی ویژگی که برای ورودی‌های با اندازه ثابت طراحی شده‌اند، متمایز می‌کند.

ارزیابی TokenSHAP در چندین معماری مدل، بینش‌های مهمی درباره رفتار مدل‌های زبانی بزرگ آشکار می‌کند. بهبودهای مداوم در همسویی با قضاوت‌های انسانی نشان می‌دهد که این روش، مفاهیم شهودی اهمیت را بهتر از رویکردهای مبتنی بر توجه درک می‌کند. این یافته با نتایج گروه HAI دانشگاه استنفورد همسو است که بر نیاز به روش‌های قابلیت تفسیر که با فرآیندهای شناختی انسان مطابقت دارند، تأکید کرده است. معیارهای وفاداری نشان می‌دهند که TokenSHAP به طور دقیق‌تری محاسبات واقعی مدل را بازتاب می‌دهد تا اینکه تبیین‌های پس‌رو ارائه دهد.

قابلیت‌های بصری‌سازی TokenSHAP، کاربردهای عملی در اشکال‌زدایی مدل و مهندسی ورودی‌ها را ممکن می‌سازد. با ارائه نمرات کمی اهمیت، این روش فراتر از ارزیابی‌های کیفی رایج در بصری‌سازی توجه حرکت می‌کند. این رویکرد کمی از تحلیل سیستماتیک‌تر رفتار مدل پشتیبانی می‌کند، مشابه نحوه‌ای که نقشه‌های برجستگی در قابلیت تفسیر بینایی کامپیوتر تکامل یافتند. سازگاری این روش در ورودی‌های مشابه، نشان‌دهنده استحکام آن است و نگرانی‌های مربوط به پایداری روش‌های قابلیت تفسیر که در ادبیات اخیر آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT مطرح شده را برطرف می‌کند.

7 کاربردها و جهت‌های آینده

TokenSHAP کاربردهای فوری در اشکال‌زدایی مدل، بهینه‌سازی ورودی‌ها و ابزارهای آموزشی برای سواد هوش مصنوعی دارد. جهت‌های آینده شامل گسترش این روش به مدل‌های چندوجهی، تفسیر بلادرنگ برای هوش مصنوعی گفتگومحور و یکپارچه‌سازی با تکنیک‌های ویرایش مدل است. این رویکرد همچنین می‌تواند برای تشخیص سوگیری‌های مدل و اطمینان از استقرار منصفانه هوش مصنوعی تطبیق داده شود.

8 مراجع

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.