INDEX
Negative Logits
revelation
-0.08
-0.08
دلیل
-0.07
لتع
-0.07
samot
-0.07
differently
-0.07
利来
-0.07
扱
-0.07
udis
-0.07
ideals
-0.07
POSITIVE LOGITS
Correct
0.11
mindestens
0.11
almeno
0.11
Correct
0.11
_correct
0.11
minstens
0.10
своев
0.10
correctamente
0.10
सही
0.10
לפחות
0.10
Activations Density 0.012%