INDEX
Negative Logits
Haw
-0.08
Tyr
-0.07
sleeve
-0.07
Hen
-0.07
ества
-0.07
UT
-0.07
manejo
-0.07
Integrity
-0.07
Siv
-0.07
Integrity
-0.07
POSITIVE LOGITS
khỏi
0.11
困
0.09
izm
0.08
經
0.08
ment
0.08
탈
0.07
Madison
0.07
possible
0.07
amel
0.07
メント
0.07
Activations Density 0.007%