INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     nfl
    -0.07
    odium
    -0.07
    она
    -0.07
    DAQ
    -0.06
     deadlines
    -0.06
    prefer
    -0.06
    forme
    -0.06
    policy
    -0.06
    udson
    -0.06
    imiento
    -0.06
    POSITIVE LOGITS
     českých
    0.07
     uyg
    0.07
     lush
    0.07
     Дж
    0.07
    โจ
    0.07
     göz
    0.07
     wiping
    0.06
    juana
    0.06
     تیم
    0.06
     سلس
    0.06
    Act Density 0.003%

    No Known Activations