INDEX
Negative Logits
Rich
-0.08
azen
-0.07
Preston
-0.07
огда
-0.07
sex
-0.07
thro
-0.06
(Test
-0.06
gu
-0.06
geçmiş
-0.06
омина
-0.06
POSITIVE LOGITS
policy
0.08
.device
0.07
policy
0.06
-policy
0.06
Session
0.06
.Parser
0.06
Δ
0.06
perror
0.06
经理
0.06
کردن
0.06
Activations Density 0.002%