INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    S
    -0.08
     S
    -0.08
    ിജ
    -0.08
     contains
    -0.07
     aims
    -0.07
     Nazir
    -0.07
    (Intent
    -0.07
    entje
    -0.07
     Rain
    -0.07
    omet
    -0.07
    POSITIVE LOGITS
     firsthand
    0.18
     самостоятельно
    0.11
     convinced
    0.11
    自己
    0.10
     trusting
    0.10
    自行
    0.10
     überzeugt
    0.09
     بنفس
    0.09
     trusts
    0.09
     traduit
    0.09
    Act Density 0.014%

    No Known Activations