INDEX
Negative Logits
سر
-0.09
enny
-0.08
superst
-0.08
_ai
-0.07
ச்ச
-0.07
ثمر
-0.07
transc
-0.07
safer
-0.07
safe
-0.07
العم
-0.07
POSITIVE LOGITS
residual
0.11
Residual
0.10
残
0.09
unmet
0.09
Resid
0.09
/problem
0.08
discrepancy
0.08
untreated
0.08
discrepancies
0.08
fé
0.08
Activations Density 0.002%