INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     purifier
    -0.09
    ler
    -0.08
     alug
    -0.07
    kov
    -0.07
    chal
    -0.07
     pollution
    -0.07
    fortawesome
    -0.07
    Nest
    -0.07
     cruelty
    -0.07
    Santa
    -0.07
    POSITIVE LOGITS
     Coment
    0.08
     equally
    0.08
    ไข
    0.08
     Rabb
    0.08
     ejercicios
    0.07
     föl
    0.07
     Outra
    0.07
     dhin
    0.07
     creado
    0.07
     Escr
    0.07
    Act Density 0.003%

    No Known Activations