INDEX
Negative Logits
Worce
-0.07
Mandatory
-0.07
щини
-0.07
وی
-0.06
Voc
-0.06
disregard
-0.06
-------↵↵
-0.06
CE
-0.06
execution
-0.06
انی
-0.06
POSITIVE LOGITS
Gratis
0.07
bj
0.07
Shops
0.07
strategies
0.07
ีก
0.07
mc
0.07
Han
0.07
applauded
0.06
>New
0.06
생
0.06
Activations Density 0.009%