INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     teddy
    -0.09
     земля
    -0.08
     منظمة
    -0.08
     verzorgd
    -0.08
     org
    -0.08
     levar
    -0.08
     universo
    -0.08
     enfer
    -0.08
     ordentlich
    -0.08
    439
    -0.07
    POSITIVE LOGITS
    0.11
    0.11
    anta
    0.11
    0.11
    acker
    0.11
    ચ્છ
    0.10
    ako
    0.10
    0.10
    ării
    0.10
    াছ
    0.09
    Act Density 0.005%

    No Known Activations