INDEX
Negative Logits
Кар
-0.07
las
-0.06
dum
-0.06
tam
-0.06
ас
-0.06
ques
-0.06
سي
-0.06
無
-0.06
espa
-0.06
Sort
-0.06
POSITIVE LOGITS
rejection
0.06
demonstrations
0.06
OPS
0.06
ผม
0.06
paste
0.06
Criterion
0.06
demonstration
0.06
apk
0.06
_p
0.06
P
0.06
Activations Density 0.005%