INDEX
Negative Logits
็นท
-0.07
A
-0.07
خاطر
-0.06
已
-0.06
ucfirst
-0.06
_instructions
-0.06
negatives
-0.06
一定
-0.06
verilen
-0.06
تد
-0.06
POSITIVE LOGITS
.")]↵
0.07
ogens
0.06
.avg
0.06
()]);↵
0.06
.ly
0.06
Domestic
0.06
BAR
0.06
bur
0.06
scent
0.06
Toxic
0.06
Activations Density 0.015%