INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     sifat
    -0.08
     Leeftijd
    -0.08
     deri
    -0.08
     skj
    -0.07
     leeftijd
    -0.07
     μορ
    -0.07
     nytt
    -0.07
    oris
    -0.07
     δια
    -0.07
     kandidat
    -0.07
    POSITIVE LOGITS
    ilang
    0.09
    ouvre
    0.08
     dab
    0.08
     chok
    0.08
     magari
    0.07
    ouvrez
    0.07
    ärg
    0.07
     Automation
    0.07
     nobody
    0.07
     apolog
    0.07
    Act Density 0.005%

    No Known Activations