INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     bril
    -0.08
    -0.08
     libera
    -0.08
     uitvoeren
    -0.08
     मुक्त
    -0.08
     imo
    -0.07
     બત
    -0.07
    -0.07
    -labelled
    -0.07
     IMM
    -0.07
    POSITIVE LOGITS
    راوح
    0.08
    fänger
    0.08
    ರೆ
    0.08
     ventas
    0.08
     queridos
    0.08
     роста
    0.08
     изп
    0.07
     ощущения
    0.07
    0.07
     phakathi
    0.07
    Act Density 0.001%

    No Known Activations