INDEX
Negative Logits
bureauc
-0.06
Interaction
-0.06
نب
-0.06
agency
-0.06
synchronization
-0.06
insky
-0.06
toilets
-0.06
jurisdiction
-0.06
hunted
-0.06
isku
-0.06
POSITIVE LOGITS
пес
0.06
Sit
0.06
філь
0.06
regist
0.06
ignore
0.06
Bias
0.06
_reordered
0.06
sağlay
0.06
/Delete
0.06
problemas
0.06
Activations Density 0.007%