INDEX
Negative Logits
prox
-0.09
Wx
-0.07
Locker
-0.07
남
-0.07
peny
-0.07
OX
-0.07
�
-0.07
시
-0.07
프로
-0.07
अग
-0.07
POSITIVE LOGITS
phr
0.08
দের
0.07
magistr
0.07
কর
0.07
deduct
0.07
الز
0.07
Orth
0.07
आठ
0.07
regulators
0.07
เรื่อง
0.07
Activations Density 0.001%