INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    cheme
    -0.08
     हुई
    -0.08
     kép
    -0.07
     अच्छ
    -0.07
     män
    -0.07
    enj
    -0.07
     hitt
    -0.07
     Hiz
    -0.07
     الحض
    -0.07
    ledd
    -0.07
    POSITIVE LOGITS
     production
    0.10
    -grade
    0.09
    에서는
    0.09
    production
    0.09
     varten
    0.09
     практике
    0.09
    τικά
    0.09
     жағдайда
    0.09
     practice
    0.08
    -ready
    0.08
    Act Density 0.012%

    No Known Activations