INDEX
Negative Logits
Please
-0.08
Nice
-0.08
hardy
-0.07
_br
-0.07
logically
-0.07
Inquiry
-0.07
dest
-0.07
_orig
-0.07
pony
-0.07
Bra
-0.07
POSITIVE LOGITS
təhlük
0.10
konkur
0.09
Überrasch
0.09
bede
0.09
sorpresa
0.09
خطر
0.08
epekto
0.08
последствия
0.08
тыч
0.08
Existe
0.08
Activations Density 0.001%