INDEX
Negative Logits
bullied
-0.10
bullying
-0.08
}`}
-0.07
cida
-0.07
cruel
-0.07
-0.07
ある
-0.07
殺
-0.07
take
-0.07
-0.07
POSITIVE LOGITS
temas
0.09
Topics
0.09
topics
0.09
내용
0.09
内容
0.09
Topics
0.08
comprises
0.08
职责
0.08
inhoud
0.08
_CONTENT
0.08
Activations Density 0.000%