INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     муницип
    -0.08
     muv
    -0.07
     verdi
    -0.07
    מאל
    -0.07
     imposing
    -0.07
     infrared
    -0.07
     செயல
    -0.07
     않았
    -0.07
     morali
    -0.07
    实际上
    -0.07
    POSITIVE LOGITS
     Kag
    0.10
    ibox
    0.08
    0.08
     Pip
    0.08
     Schwer
    0.08
     Jón
    0.07
     Kus
    0.07
    0.07
    0.07
     Citr
    0.07
    Act Density 0.000%

    No Known Activations