INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
     odre
    -0.07
     тах
    -0.07
     latina
    -0.07
     zama
    -0.07
     soc
    -0.07
     zap
    -0.07
     Mej
    -0.07
     Zap
    -0.07
    ənin
    -0.07
    POSITIVE LOGITS
     Charter
    0.09
    ível
    0.08
     बहुत
    0.08
    weg
    0.08
    Appe
    0.08
     Fleet
    0.08
     Bedien
    0.08
     Kong
    0.08
     الح
    0.07
    aww
    0.07
    Act Density 0.004%

    No Known Activations