INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     לא
    0.35
    (!)
    0.34
     hates
    0.32
     ने
    0.31
     (!)
    0.30
     не
    0.30
     nesse
    0.30
     ו
    0.29
     переста
    0.28
     smelly
    0.27
    POSITIVE LOGITS
     অ্যাপ্লিকেশন
    0.27
     خاتون
    0.27
     አገልግሎ
    0.27
     ইউনাই
    0.26
    ্যেষ্ঠ
    0.26
    北京市
    0.26
    0.26
     কিওয়ার্ড
    0.25
    ंसू
    0.25
    参见
    0.25
    Act Density 0.032%

    No Known Activations