INDEX
Negative Logits
tendr
-0.08
뱔
-0.08
интер
-0.07
IGNORE
-0.07
tiers
-0.07
溃
-0.07
wides
-0.07
ğer
-0.07
الأورو
-0.07
��이터
-0.06
POSITIVE LOGITS
לעבוד
0.07
amu
0.07
misconduct
0.07
呈現
0.07
estava
0.07
เขต
0.07
准确
0.07
Abram
0.07
_exists
0.07
Explicit
0.07
Activations Density 0.050%