INDEX
Negative Logits
因
-0.07
gal
-0.07
font
-0.06
ुब
-0.06
bona
-0.06
fool
-0.06
harms
-0.06
dataSet
-0.06
defa
-0.06
acket
-0.06
POSITIVE LOGITS
ανα
0.07
Karen
0.07
Legal
0.06
unintended
0.06
canadian
0.06
Прод
0.06
вести
0.06
Psychological
0.06
vascular
0.06
Daisy
0.06
Activations Density 0.001%