INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     هغه
    -0.09
     حياته
    -0.09
     todavía
    -0.08
     شرایط
    -0.08
     الظروف
    -0.08
     موضوع
    -0.08
    موضوع
    -0.08
     الصور
    -0.08
     noch
    -0.08
    .Agent
    -0.08
    POSITIVE LOGITS
    ремя
    0.08
    В
    0.07
     mods
    0.07
     zero
    0.07
     я
    0.07
     честь
    0.07
    entities
    0.07
    Mods
    0.07
     начать
    0.07
    лом
    0.07
    Act Density 0.004%

    No Known Activations