INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    aino
    -0.09
     வள
    -0.08
     வந்த
    -0.08
     الشكل
    -0.08
     நோ
    -0.07
     وصول
    -0.07
    Зап
    -0.07
    На
    -0.07
    ngr
    -0.07
    Kn
    -0.07
    POSITIVE LOGITS
     poses
    0.08
     promete
    0.08
     opl
    0.08
     werk
    0.08
     bestr
    0.07
     TLC
    0.07
    0.07
     gist
    0.07
    ,de
    0.07
     pony
    0.07
    Act Density 0.006%

    No Known Activations