INDEX
Negative Logits
Mu
-0.07
λος
-0.07
DEN
-0.07
INIT
-0.06
phong
-0.06
Validator
-0.06
staring
-0.06
라피
-0.06
раста
-0.06
898
-0.06
POSITIVE LOGITS
turist
0.07
torque
0.07
Pane
0.06
ان
0.06
"]:
0.06
Employee
0.06
cooperate
0.06
Restricted
0.06
nar
0.06
Công
0.06
Activations Density 0.003%