TokenSHAP: Büyük Dil Modellerinin Monte Carlo Shapley Değeri Tahmini ile Yorumlanması

1 Giriş

Büyük dil modelleri (YDM'ler) doğal dil işlemeyi devrimleştirerek birçok görevde insan seviyesinde performans elde etmiştir. Ancak, kara kutu doğaları önemli yorumlanabilirlik zorlukları ortaya çıkarmakta, özellikle sağlık hizmetleri ve hukuki analiz gibi AI karar alma süreçlerinin anlaşılmasının hayati önem taşıdığı kritik uygulamalarda bu durum geçerlidir.

TokenSHAP, işbirlikçi oyun teorisindeki Shapley değerlerini uyarlayarak girdi istemlerindeki bireysel token'lara veya alt dizilere önem atfetme yoluyla bu zorluğu ele almaktadır. Bu, bir girdinin farklı bölümlerinin modelin yanıtına nasıl katkıda bulunduğunu anlamak için titiz bir çerçeve sağlamaktadır.

2 İlgili Çalışmalar

2.1 Makine Öğrenmesinde Yorumlanabilirlik

Yorumlanabilirlik yöntemleri genel olarak kara kutu ve beyaz kutu yaklaşımları olarak sınıflandırılır. LIME ve SHAP gibi kara kutu yöntemleri model iç erişimi gerektirmeden açıklamalar sağlarken, gradyan tabanlı belirginlik haritaları ve katman bazlı ilgi yayılımı gibi beyaz kutu yöntemleri tam model mimarisi bilgisi gerektirir.

2.2 Doğal Dil İşlemede Yorumlanabilirlik

Dil işlemede, dikkat görselleştirme teknikleri yaygın olarak kullanılmıştır ancak genellikle nicel önem ölçümleri sağlamada başarısız olurlar. Son yaklaşımlar, değişken uzunluklu girdiler ve bağlamsal bağımlılıklarla ilgili zorluklarla karşılaşsalar da, özellikle dil modelleri için tasarlanmış öznitelik atıf yöntemlerini keşfetmiştir.

3 TokenSHAP Metodolojisi

3.1 Teorik Çerçeve

TokenSHAP, token'ları işbirlikçi bir oyundaki oyuncular olarak ele alarak Shapley değerlerini değişken uzunluklu metin girdilerine genişletir. Kazanç fonksiyonu, belirli token alt kümeleriyle ve onlarsız model çıktıları arasındaki benzerlik olarak tanımlanır.

3.2 Monte Carlo Örnekleme Yaklaşımı

Hesaplama karmaşıklığını ele almak için TokenSHAP, Monte Carlo örneklemesi kullanarak token'ları rastgele permütasyon yapar ve marjinal katkıları hesaplar. Bu yaklaşım, teorik garantileri korurken girdi uzunluğuyla verimli bir şekilde ölçeklenir.

4 Teknik Uygulama

4.1 Matematiksel Formülasyon

Token $i$ için Shapley değeri şu şekilde tanımlanır:

$\phi_i = \sum_{S \subseteq N \setminus \{i\}} \frac{|S|!(|N|-|S|-1)!}{|N|!} [v(S \cup \{i\}) - v(S)]$

burada $N$ tüm token'ların kümesi, $S$ token $i$ hariç bir alt küme ve $v(S)$ alt küme $S$ için model çıktı kalitesini ölçen değer fonksiyonudur.

4.2 Algoritma ve Sözde Kod

def tokenshap_importance(text, model, num_samples=1000):
    tokens = tokenize(text)
    n = len(tokens)
    shapley_values = np.zeros(n)
    
    for _ in range(num_samples):
        permutation = random_permutation(n)
        for i in range(n):
            S = set(permutation[:i])
            with_token = model.predict(include_tokens(S | {permutation[i]}))
            without_token = model.predict(include_tokens(S))
            marginal_contribution = similarity(with_token, without_token)
            shapley_values[permutation[i]] += marginal_contribution
    
    return shapley_values / num_samples

5 Deneysel Sonuçlar

5.1 Değerlendirme Metrikleri

TokenSHAP, üç temel metrik kullanılarak değerlendirilmiştir: insan yargılarıyla uyum (insan tarafından işaretlenmiş önem puanlarıyla korelasyonla ölçülür), doğruluk (gerçek model davranışını yansıtma yeteneği) ve tutarlılık (benzer girdiler arasında kararlılık).

5.2 Karşılaştırmalı Analiz

Çeşitli istemler ve YDM mimarileri (GPT-3, BERT ve T5 dahil) üzerinde yapılan deneyler, TokenSHAP'ın LIME ve dikkat tabanlı yöntemler gibi temel yöntemlere üstünlüğünü göstermiştir. Yöntem, mevcut yaklaşımlara kıyasla insan uyumunda %25 iyileşme ve doğruluk puanlarında %30 daha iyi performans göstermiştir.

İnsan Uyumu

%25 İyileşme

Doğruluk

%30 Daha İyi Puanlar

Tutarlılık

Yüksek Kararlılık

6 Özgün Analiz

TokenSHAP, oyun teorisi ve doğal dil işlemeyi birleştirerek YDM yorumlanabilirliğinde önemli bir ilerleme temsil etmektedir. Yöntemin Shapley değerlerindeki teorik temeli, dikkat görselleştirmesi gibi sezgisel tabanlı yöntemlerin sınırlamalarını ele alarak matematiksel olarak titiz bir öznitelik atıf yaklaşımı sağlar. CycleGAN'ın eşleştirilmemiş görüntü çevirisi için döngü tutarlılığını tanıtmasına benzer şekilde, TokenSHAP farklı girdi varyasyonları arasında token önem atfında tutarlılık oluşturur.

Monte Carlo örnekleme yaklaşımı, dikkate değer hesaplama verimliliği göstererek kesin Shapley değeri hesaplamasının üstel karmaşıklığını gerçek dünya uygulamaları için pratik seviyelere indirger. Bu verimlilik kazancı, Journal of Machine Learning Research'ta belgelenen Bayesci derin öğrenmedeki yaklaşık çıkarım yöntemlerindeki ilerlemelere benzerdir. Yöntemin değişken uzunluklu girdileri işleme yeteneği, onu sabit boyutlu girdiler için tasarlanmış geleneksel öznitelik atıf tekniklerinden ayırır.

TokenSHAP'ın birden fazla model mimarisi üzerindeki değerlendirmesi, YDM davranışı hakkında önemli içgörüler ortaya çıkarmaktadır. İnsan yargılarıyla uyumdaki tutarlı iyileştirmeler, yöntemin dikkat tabanlı yaklaşımlardan daha iyi sezgisel önem kavramlarını yakaladığını göstermektedir. Bu, insan bilişsel süreçleriyle eşleşen yorumlanabilirlik yöntemleri ihtiyacını vurgulayan Stanford HAI grubunun bulgularıyla uyumludur. Doğruluk metrikleri, TokenSHAP'ın sonradan akla uygun hale getirme sağlamak yerine gerçek model hesaplamalarını daha doğru yansıttığını göstermektedir.

TokenSHAP'ın görselleştirme yetenekleri, model hata ayıklama ve istem mühendisliğinde pratik uygulamalar sağlar. Nicel önem puanları sağlayarak, yöntem dikkat görselleştirmede yaygın olan nitel değerlendirmelerin ötesine geçer. Bu nicel yaklaşım, bilgisayarlı görü yorumlanabilirliğinde belirginlik haritalarının evrimine benzer şekilde, model davranışının daha sistematik analizini destekler. Benzer girdiler arasındaki yöntemin tutarlılığı, MIT Bilgisayar Bilimi ve AI Laboratuvarı'ndan son literatürde dile getirilen yorumlanabilirlik yöntemlerinin kararlılığı endişelerini ele alarak sağlamlık önermektedir.

7 Uygulamalar ve Gelecek Yönelimler

TokenSHAP'ın model hata ayıklama, istem optimizasyonu ve AI okuryazarlığı için eğitim araçlarında acil uygulamaları bulunmaktadır. Gelecek yönelimler arasında yöntemin çok modelli modellere genişletilmesi, konuşma AI'sı için gerçek zamanlı yorumlama ve model düzenleme teknikleriyle entegrasyonu yer almaktadır. Yaklaşım ayrıca model önyargılarını tespit etmek ve adil AI dağıtımını sağlamak için uyarlanabilir.

8 Referanslar

Lundberg, S. M., & Lee, S. I. (2017). A Unified Approach to Interpreting Model Predictions. Advances in Neural Information Processing Systems.
Ribeiro, M. T., Singh, S., & Guestrin, C. (2016). "Why Should I Trust You?" Explaining the Predictions of Any Classifier. ACM SIGKDD.
Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems.
Zeiler, M. D., & Fergus, R. (2014). Visualizing and Understanding Convolutional Networks. European Conference on Computer Vision.
Bach, S., et al. (2015). On Pixel-Wise Explanations for Non-Linear Classifier Decisions by Layer-Wise Relevance Propagation. PLoS ONE.