INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     nonsense
    -0.08
     δε
    -0.07
     Früh
    -0.07
    markup
    -0.07
     hygiene
    -0.07
    ായിരുന്നു
    -0.07
    stype
    -0.07
     gegeben
    -0.07
    fund
    -0.07
     മുമ്പ
    -0.07
    POSITIVE LOGITS
     lone
    0.11
    0.09
     solitary
    0.09
     सैनिक
    0.09
     warrior
    0.09
    stående
    0.08
     pistol
    0.08
    -standing
    0.08
     compañ
    0.08
    0.08
    Act Density 0.003%

    No Known Activations