INDEX
Negative Logits
agua
-0.06
�
-0.06
ателей
-0.06
obre
-0.06
_Command
-0.06
خاص
-0.06
eru
-0.05
ущ
-0.05
cosine
-0.05
thoát
-0.05
POSITIVE LOGITS
Dame
0.08
,True
0.07
751
0.07
TOO
0.07
REMOVE
0.07
implies
0.06
stylish
0.06
parti
0.06
und
0.06
TECTED
0.06
Activations Density 0.000%