INDEX
Negative Logits
sheriff
-0.10
marco
-0.09
hjem
-0.08
savon
-0.08
Marco
-0.08
mailbox
-0.08
Federación
-0.08
senate
-0.08
vendeur
-0.08
كة
-0.08
POSITIVE LOGITS
/ar
0.08
الج
0.08
�
0.08
בט
0.08
breadcrumbs
0.08
刺激
0.07
తగ్గ
0.07
減
0.07
(二
0.07
reducing
0.07
Activations Density 0.005%