INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.09
     puls
    -0.09
    ey
    -0.08
     retard
    -0.08
     பழ
    -0.07
     Sketch
    -0.07
    ેવ
    -0.07
    ichtet
    -0.07
     ускор
    -0.07
     sy
    -0.07
    POSITIVE LOGITS
    Thank
    0.08
     الرسمية
    0.08
     JK
    0.08
     ادب
    0.08
     thank
    0.08
     apolog
    0.08
     നന്ദ
    0.08
     officielle
    0.08
    Spam
    0.08
     apology
    0.08
    Act Density 0.120%

    No Known Activations