INDEX
Negative Logits
Sam
-0.08
Formatter
-0.07
.dirty
-0.07
-threatening
-0.07
�
-0.07
.ActionEvent
-0.06
‖
-0.06
stmt
-0.06
<n
-0.06
,↵↵↵↵
-0.06
POSITIVE LOGITS
耀
0.09
גה
0.08
Gerard
0.07
쨌
0.07
ocom
0.07
oids
0.06
UB
0.06
Garland
0.06
기는
0.06
podemos
0.06
Activations Density 0.000%