1 مقدمه
مدلهای زبانی بزرگ (LLMs) انقلابی در پردازش زبان طبیعی ایجاد کردهاند و در بسیاری از وظایف به عملکردی در سطح انسانی دست یافتهاند. با این حال، ماهیت جعبه سیاه آنها چالشهای قابل توجهی در قابلیت تفسیر ایجاد میکند، به ویژه در کاربردهای حیاتی مانند مراقبتهای بهداشتی و تحلیل حقوقی که درک فرآیند تصمیمگیری هوش مصنوعی ضروری است.
TokenSHAP این چالش را با تطبیق مقادیر شپلی از نظریه بازیهای مشارکتی برای نسبتدهی اهمیت به توکنها یا زیررشتههای فردی در درون ورودیها حل میکند. این روش چارچوبی دقیق برای درک چگونگی مشارکت بخشهای مختلف یک ورودی در پاسخ مدل فراهم میآورد.
2 کارهای مرتبط
2.1 قابلیت تفسیر در یادگیری ماشین
روشهای قابلیت تفسیر به طور کلی به دو دسته جعبه سیاه و جعبه سفید تقسیم میشوند. روشهای جعبه سیاه مانند LIME و SHAP بدون نیاز به دسترسی به درون مدل، تبیینهایی ارائه میدهند، در حالی که روشهای جعبه سفید مانند نقشههای برجستگی مبتنی بر گرادیان و انتشار ارتباط لایهای به دانش کامل از معماری مدل نیاز دارند.
2.2 قابلیت تفسیر در پردازش زبان طبیعی
در پردازش زبان طبیعی، تکنیکهای بصریسازی توجه به طور گسترده استفاده شدهاند، اما اغلب در ارائه سنجههای کمی اهمیت ناتوان هستند. رویکردهای اخیر روشهای نسبتدهی ویژگی را که به طور خاص برای مدلهای زبانی طراحی شدهاند، بررسی کردهاند، اگرچه با چالشهای مربوط به ورودیهای با طول متغیر و وابستگیهای متنی مواجه هستند.
3 روششناسی TokenSHAP
3.1 چارچوب نظری
TokenSHAP مقادیر شپلی را با در نظر گرفتن توکنها به عنوان بازیکنان در یک بازی مشارکتی، به ورودیهای متنی با طول متغیر گسترش میدهد. تابع سود به عنوان شباهت بین خروجیهای مدل با و بدون زیرمجموعههای خاص توکن تعریف میشود.
3.2 رویکرد نمونهگیری مونتکارلو
برای مقابله با پیچیدگی محاسباتی، TokenSHAP از نمونهگیری مونتکارلو استفاده میکند که در آن توکنها به طور تصادفی جایگشت میشوند و مشارکتهای حاشیهای محاسبه میشوند. این رویکرد با افزایش طول ورودی به طور کارآمد مقیاس میشود و در عین حال تضمینهای نظری را حفظ میکند.
4 پیادهسازی فنی
4.1 فرمولبندی ریاضی
مقدار شپلی برای توکن $i$ به صورت زیر تعریف میشود:
$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$
که در آن $N$ مجموعه تمام توکنها است، $S$ یک زیرمجموعه بدون توکن $i$ است، و $v(S)$ تابع ارزشی است که کیفیت خروجی مدل را برای زیرمجموعه $S$ اندازهگیری میکند.
4.2 الگوریتم و شبهکد
def tokenshap_importance(text, model, num_samples=1000):
tokens = tokenize(text)
n = len(tokens)
shapley_values = np.zeros(n)
for _ in range(num_samples):
permutation = random_permutation(n)
for i in range(n):
S = set(permutation[:i])
with_token = model.predict(include_tokens(S | {permutation[i]}))
without_token = model.predict(include_tokens(S))
marginal_contribution = similarity(with_token, without_token)
shapley_values[permutation[i]] += marginal_contribution
return shapley_values / num_samples
5 نتایج تجربی
5.1 معیارهای ارزیابی
TokenSHAP با استفاده از سه معیار کلیدی ارزیابی شد: همسویی با قضاوتهای انسانی (اندازهگیری شده توسط همبستگی با نمرات اهمیت حاشیهنویسی شده توسط انسان)، وفاداری (توانایی در بازتاب رفتار واقعی مدل)، و سازگاری (پایداری در ورودیهای مشابه).
5.2 تحلیل مقایسهای
آزمایشها در انواع مختلف ورودیها و معماریهای مدل زبانی بزرگ (شامل GPT-3، BERT و T5) برتری TokenSHAP را نسبت به روشهای پایه مانند LIME و روشهای مبتنی بر توجه نشان داد. این روش بهبود 25 درصدی در همسویی با انسان و نمرات وفاداری 30 درصد بهتر را در مقایسه با رویکردهای موجود نشان داد.
همسویی با انسان
25% بهبود
وفاداری
30% نمرات بهتر
سازگاری
پایداری بالا
6 تحلیل اصلی
TokenSHAP با پل زدن بین نظریه بازیها و پردازش زبان طبیعی، پیشرفت قابل توجهی در قابلیت تفسیر مدلهای زبانی بزرگ محسوب میشود. پایه نظری این روش در مقادیر شپلی، رویکردی ریاضیاتی دقیق برای نسبتدهی ویژگی فراهم میآورد و محدودیتهای روشهای مبتنی بر اکتشاف مانند بصریسازی توجه را برطرف میکند. مشابه نحوهای که CycleGAN سازگاری چرخهای را برای ترجمه تصاویر جفتنشده معرفی کرد، TokenSHAP سازگاری در نسبتدهی اهمیت توکن را در تغییرات مختلف ورودی ایجاد میکند.
روش نمونهگیری مونتکارلو کارایی محاسباتی قابل توجهی نشان میدهد و پیچیدگی نمایی محاسبه دقیق مقادیر شپلی را برای کاربردهای دنیای واقعی به سطوح عملی کاهش میدهد. این دستاورد کارایی قابل مقایسه با پیشرفتهای مشاهده شده در روشهای استنتاج تقریبی در یادگیری عمیق بیزی است، همانطور که در مجله تحقیقات یادگیری ماشین مستند شده است. توانایی این روش در مدیریت ورودیهای با طول متغیر، آن را از تکنیکهای سنتی نسبتدهی ویژگی که برای ورودیهای با اندازه ثابت طراحی شدهاند، متمایز میکند.
ارزیابی TokenSHAP در چندین معماری مدل، بینشهای مهمی درباره رفتار مدلهای زبانی بزرگ آشکار میکند. بهبودهای مداوم در همسویی با قضاوتهای انسانی نشان میدهد که این روش، مفاهیم شهودی اهمیت را بهتر از رویکردهای مبتنی بر توجه درک میکند. این یافته با نتایج گروه HAI دانشگاه استنفورد همسو است که بر نیاز به روشهای قابلیت تفسیر که با فرآیندهای شناختی انسان مطابقت دارند، تأکید کرده است. معیارهای وفاداری نشان میدهند که TokenSHAP به طور دقیقتری محاسبات واقعی مدل را بازتاب میدهد تا اینکه تبیینهای پسرو ارائه دهد.
قابلیتهای بصریسازی TokenSHAP، کاربردهای عملی در اشکالزدایی مدل و مهندسی ورودیها را ممکن میسازد. با ارائه نمرات کمی اهمیت، این روش فراتر از ارزیابیهای کیفی رایج در بصریسازی توجه حرکت میکند. این رویکرد کمی از تحلیل سیستماتیکتر رفتار مدل پشتیبانی میکند، مشابه نحوهای که نقشههای برجستگی در قابلیت تفسیر بینایی کامپیوتر تکامل یافتند. سازگاری این روش در ورودیهای مشابه، نشاندهنده استحکام آن است و نگرانیهای مربوط به پایداری روشهای قابلیت تفسیر که در ادبیات اخیر آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT مطرح شده را برطرف میکند.
7 کاربردها و جهتهای آینده
TokenSHAP کاربردهای فوری در اشکالزدایی مدل، بهینهسازی ورودیها و ابزارهای آموزشی برای سواد هوش مصنوعی دارد. جهتهای آینده شامل گسترش این روش به مدلهای چندوجهی، تفسیر بلادرنگ برای هوش مصنوعی گفتگومحور و یکپارچهسازی با تکنیکهای ویرایش مدل است. این رویکرد همچنین میتواند برای تشخیص سوگیریهای مدل و اطمینان از استقرار منصفانه هوش مصنوعی تطبیق داده شود.
8 مراجع
- Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
- Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
- Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
- Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
- Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.