INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Marie
    -0.08
     Nelson
    -0.08
    -0.08
     SKY
    -0.07
    中特
    -0.07
    看看
    -0.07
    -пр
    -0.07
     Troy
    -0.07
     Parc
    -0.07
     Alleg
    -0.07
    POSITIVE LOGITS
    ifies
    0.12
     pernah
    0.10
     necessarily
    0.10
     obstante
    0.10
     yet
    0.09
     سوى
    0.09
     совсем
    0.09
    办法
    0.09
    0.09
    epad
    0.08
    Act Density 0.420%

    No Known Activations