INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     bør
    -0.08
    ëve
    -0.08
    بارات
    -0.08
     parade
    -0.08
    Livro
    -0.07
    ancock
    -0.07
     correspondente
    -0.07
    -0.07
     Livro
    -0.07
     boeken
    -0.07
    POSITIVE LOGITS
     sendiri
    0.10
    -même
    0.09
     zuverläss
    0.09
     собственной
    0.08
     самого
    0.08
     herm
    0.08
     Aron
    0.08
    เอง
    0.08
     स्वयं
    0.08
     själv
    0.08
    Act Density 0.029%

    No Known Activations