INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     taka
    -0.08
     ausser
    -0.08
    умы
    -0.07
     שלו
    -0.07
    _R
    -0.07
     физ
    -0.07
     Fuer
    -0.07
     lieb
    -0.07
     tapes
    -0.07
    otrop
    -0.07
    POSITIVE LOGITS
     السفر
    0.09
     الأشخاص
    0.08
     الشب
    0.08
     الدول
    0.08
     सुविधा
    0.08
    خبر
    0.08
    uerzo
    0.08
    Guide
    0.08
    ाचे
    0.07
    าญ
    0.07
    Act Density 0.001%

    No Known Activations