INDEX
Negative Logits
refrigerators
-0.08
/preferences
-0.08
ıyor
-0.08
(pref
-0.07
reviewers
-0.07
Intro
-0.07
Urban
-0.07
pooling
-0.07
διο
-0.07
statistically
-0.07
POSITIVE LOGITS
dangerous
0.10
poisonous
0.10
Dangerous
0.09
dangereux
0.09
dangere
0.09
опас
0.09
gevaar
0.09
危险
0.08
perigos
0.08
.stock
0.08
Activations Density 0.006%