INDEX
Negative Logits
覽
-0.08
member
-0.08
oped
-0.08
Allen
-0.07
Auschwitz
-0.07
mitglied
-0.07
members
-0.07
irrespons
-0.07
বিশ্বাস
-0.07
dårlig
-0.07
POSITIVE LOGITS
randomized
0.08
станет
0.08
phr
0.08
голос
0.07
Preset
0.07
phrases
0.07
habitual
0.07
_sent
0.07
бот
0.07
机器人
0.07
Activations Density 0.003%