1 المقدمة
أحدثت النماذج اللغوية الكبيرة (LLMs) ثورة في معالجة اللغة الطبيعية، حيث حققت أداءً على مستوى البشر في العديد من المهام. ومع ذلك، فإن طبيعتها كصندوق أسود تطرح تحديات كبيرة في قابلية التفسير، خاصة في التطبيقات الحرجة مثل الرعاية الصحية والتحليل القانوني حيث يكون فهم اتخاذ القرار بالذكاء الاصطناعي أمرًا ضروريًا.
يتعامل TokenSHAP مع هذا التحدي من خلال تكييف قيم شابلي من نظرية الألعاب التعاونية لتحديد أهمية الرموز الفردية أو السلاسل الجزئية داخل نصوص الإدخال. وهذا يوفر إطارًا صارمًا لفهم كيفية مساهمة الأجزاء المختلفة للإدخال في استجابة النموذج.
2 الأعمال ذات الصلة
2.1 القابلية للتفسير في التعلم الآلي
تُصنف طرق القابلية للتفسير على نطاق واسع إلى نهج الصندوق الأسود ونهج الصندوق الأبيض. توفر طرق الصندوق الأسود مثل LIME وSHAP تفسيرات دون الحاجة إلى الوصول الداخلي للنموذج، بينما تتطلب طرق الصندوق الأبيض مثل خرائط البروز القائمة على التدرج وانتشار الصلة الطبقي معرفة كاملة بهيكل النموذج.
2.2 القابلية للتفسير في معالجة اللغة الطبيعية
في معالجة اللغة الطبيعية، تم استخدام تقنيات تصور الانتباه على نطاق واسع، لكنها غالبًا ما تفشل في توفير مقاييس كمية للأهمية. استكشفت الأساليب الحديثة طرق إسناد السمات المصممة خصيصًا للنماذج اللغوية، على الرغم من أنها تواجه تحديات مع مدخلات الطول المتغير والتبعيات السياقية.
3 منهجية TokenSHAP
3.1 الإطار النظري
يمدد TokenSHAP قيم شابلي لمدخلات النصوص ذات الطول المتغير من خلال معاملة الرموز كلاعبين في لعبة تعاونية. يتم تعريف دالة العائد على أنها التشابه بين مخرجات النموذج مع وبدون مجموعات فرعية محددة من الرموز.
3.2 نهج أخذ العينات بطريقة مونت كارلو
لمعالجة التعقيد الحسابي، يستخدم TokenSHAP أخذ العينات بطريقة مونت كارلو، حيث يقوم بتبديل الرموز عشوائيًا وحساب المساهمات الهامشية. هذا النهج يتوسع بكفاءة مع طول الإدخال مع الحفاظ على الضمانات النظرية.
4 التنفيذ التقني
4.1 الصياغة الرياضية
يتم تعريف قيمة شابلي للرمز $i$ على النحو التالي:
$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$
حيث $N$ هي مجموعة جميع الرموز، و$S$ هي مجموعة فرعية تستثني الرمز $i$، و$v(S)$ هي دالة القيمة التي تقيس جودة مخرجات النموذج للمجموعة الفرعية $S$.
4.2 الخوارزمية والكود الزائف
def tokenshap_importance(text, model, num_samples=1000):
tokens = tokenize(text)
n = len(tokens)
shapley_values = np.zeros(n)
for _ in range(num_samples):
permutation = random_permutation(n)
for i in range(n):
S = set(permutation[:i])
with_token = model.predict(include_tokens(S | {permutation[i]}))
without_token = model.predict(include_tokens(S))
marginal_contribution = similarity(with_token, without_token)
shapley_values[permutation[i]] += marginal_contribution
return shapley_values / num_samples
5 النتائج التجريبية
5.1 مقاييس التقييم
تم تقييم TokenSHAP باستخدام ثلاثة مقاييس رئيسية: التوافق مع الأحكام البشرية (المقاسة بالارتباط مع درجات الأهمية التي حددها البشر)، والصدق (القدرة على عكس سلوك النموذج الفعلي)، والاتساق (الاستقرار عبر المدخلات المتشابهة).
5.2 التحليل المقارن
أظهرت التجارب عبر نصوص إدخال متنوعة وهياكل نماذج لغوية كبيرة (بما في ذلك GPT-3 وBERT وT5) تفوق TokenSHAP على الأساليب الأساسية مثل LIME والطرق القائمة على الانتباه. أظهرت الطريقة تحسنًا بنسبة 25% في التوافق البشري ودرجات صدق أفضل بنسبة 30% مقارنة بالأساليب الحالية.
التوافق البشري
تحسن بنسبة 25%
الصدق
درجات أفضل بنسبة 30%
الاتساق
استقرار عالٍ
6 التحليل الأصلي
يمثل TokenSHAP تقدمًا كبيرًا في قابلية تفسير النماذج اللغوية الكبيرة من خلال الجمع بين نظرية الألعاب ومعالجة اللغة الطبيعية. يوفر الأساس النظري للطريقة في قيم شابلي نهجًا رياضيًا صارمًا لإسناد السمات، معالجةً قيود الأساليب القائمة على الاستدلال مثل تصور الانتباه. على غرار كيفية تقديم CycleGAN لاتساق الدورة لترجمة الصور غير المزدوجة، يؤسس TokenSHAP الاتساق في إسناد أهمية الرموز عبر اختلافات الإدخال المختلفة.
يظهر نهج أخذ العينات بطريقة مونت كارلو كفاءة حسابية ملحوظة، حيث يقلل التعقيد الأسي لحساب قيمة شابلي الدقيق إلى مستويات عملية للتطبيقات الواقعية. هذا الكسب في الكفاءة يمكن مقارنته بالتقدم في طرق الاستدلال التقريبي كما هو موثق في مجلة أبحاث تعلم الآلة. تميز الطريقة في التعامل مع مدخلات الطول المتغير يميزها عن تقنيات إسناد السمات التقليدية المصممة للمدخلات ذات الحجم الثابت.
يكشف تقييم TokenSHAP عبر هياكل نماذج متعددة عن رؤى مهمة حول سلوك النماذج اللغوية الكبيرة. تشير التحسينات المتسقة في التوافق مع الأحكام البشرية إلى أن الطريقة تلتقط مفاهيم بديهية للأهمية أفضل من الأساليب القائمة على الانتباه. يتوافق هذا مع النتائج من مجموعة ستانفورد HAI، التي أكدت على الحاجة لطرق قابلية تفسير تتطابق مع العمليات المعرفية البشرية. تشير مقاييس الصدق إلى أن TokenSHAP يعكس بدقة أكبر الحسابات الفعلية للنموذج بدلاً من تقديم تبريرات لاحقة.
تمكن قدرات التصور لـ TokenSHAP من التطبيقات العملية في تصحيح النماذج وهندسة النصوص. من خلال توفير درجات أهمية كمية، تتجاوز الطريقة التقييمات النوعية الشائعة في تصور الانتباه. يدعم هذا النهج الكمي تحليلاً أكثر منهجية لسلوك النموذج، على غرار كيفية تطور خرائط البروز في قابلية تفسير رؤية الكمبيوتر. يشير اتساق الطريقة عبر المدخلات المتشابهة إلى المتانة، معالجةً مخاوف حول استقرار طرق القابلية للتفسير التي أثيرت في الأدبيات الحديثة من مختبر علوم الكمبيوتر والذكاء الاصطناعي في معهد ماساتشوستس للتكنولوجيا.
7 التطبيقات والاتجاهات المستقبلية
يحتوي TokenSHAP على تطبيقات فورية في تصحيح النماذج، وتحسين النصوص، والأدوات التعليمية لمحو الأمية بالذكاء الاصطناعي. تشمل الاتجاهات المستقبلية تمديد الطريقة للنماذج متعددة الوسائط، والتفسير في الوقت الفعلي للذكاء الاصطناعي المحادث، والتكامل مع تقنيات تحرير النماذج. يمكن أيضًا تكييف النهج للكشف عن تحيزات النماذج وضمان النشر العادل للذكاء الاصطناعي.
8 المراجع
- Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
- Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
- Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
- Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
- Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.