INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     strukt
    -0.08
     emigr
    -0.07
     ak
    -0.07
     árbol
    -0.07
     cabbage
    -0.07
     er
    -0.07
     sah
    -0.07
     liable
    -0.07
     dara
    -0.07
     cheaper
    -0.07
    POSITIVE LOGITS
     гим
    0.10
    Praise
    0.10
     ಹಾಡ
    0.09
     praise
    0.09
     praises
    0.09
    ب
    0.09
    отвор
    0.09
     Praise
    0.09
     गीत
    0.08
    0.08
    Act Density 0.009%

    No Known Activations