INDEX
Negative Logits
toxic
-0.08
梅
-0.08
Aligned
-0.08
Toxic
-0.07
Sierra
-0.07
职位
-0.07
ా�
-0.07
毒
-0.07
াঘ
-0.07
hora
-0.07
POSITIVE LOGITS
indifer
0.08
ICS
0.08
iber
0.08
Jubil
0.08
keinen
0.08
acles
0.08
unit
0.08
cies
0.08
γή
0.08
zzo
0.07
Activations Density 0.015%