INDEX
Negative Logits
easy
-0.07
Sang
-0.07
_neg
-0.07
-gnu
-0.07
.Reflection
-0.07
easy
-0.07
-east
-0.06
Filtered
-0.06
Hour
-0.06
,opt
-0.06
POSITIVE LOGITS
ísk
0.06
že
0.06
resent
0.06
replica
0.06
ptune
0.06
imp
0.06
رفتار
0.06
endencies
0.06
rupture
0.06
taire
0.06
Activations Density 0.000%