INDEX
Negative Logits
provocative
-0.09
mor
-0.09
qui
-0.09
Ав
-0.08
кожи
-0.08
Autonomous
-0.08
provoking
-0.08
оти
-0.08
пат
-0.08
tær
-0.08
POSITIVE LOGITS
怡
0.08
Trag
0.08
Stanley
0.08
�
0.08
bv
0.07
曹
0.07
poetry
0.07
stu
0.07
zt
0.07
Marian
0.07
Activations Density 0.001%