INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
     viel
    1.76
    ちょっと
    1.75
    1.52
     gent
    1.48
    なんて
    1.48
    1.47
     vor
    1.42
     dre
    1.40
     ganz
    1.38
    1.37
    POSITIVE LOGITS
     محمد
    3.73
     وق
    3.65
     وب
    3.56
    ـ
    3.50
     ومن
    3.47
     وم
    3.45
     وأ
    3.45
     خ
    3.41
     بال
    3.41
     وس
    3.39
    Act Density 0.488%

    No Known Activations