INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ’ailleurs
    -0.08
    .back
    -0.08
    ั่ง
    -0.07
     обол
    -0.07
    -0.07
     Поль
    -0.07
    寿
    -0.07
    -0.07
     авар
    -0.07
     Dong
    -0.07
    POSITIVE LOGITS
    নৈতিক
    0.09
     negativos
    0.08
     negatieve
    0.08
     guilt
    0.08
     opposing
    0.08
     disrespect
    0.08
     سبحانه
    0.08
    Dlg
    0.07
     negatives
    0.07
     negativo
    0.07
    Act Density 0.005%

    No Known Activations