INDEX
Negative Logits
irr
-0.09
柱
-0.08
-साथ
-0.08
priori
-0.07
minus
-0.07
Bab
-0.07
dem
-0.07
vál
-0.07
Ban
-0.07
-0.07
POSITIVE LOGITS
-benar
0.09
ible
0.08
IBLE
0.08
tolerant
0.08
strang
0.08
keto
0.08
iveness
0.08
merchandise
0.07
workmanship
0.07
일
0.07
Activations Density 0.004%