INDEX
Negative Logits
suc
-0.08
苛
-0.07
_now
-0.07
书
-0.07
_ment
-0.07
miscon
-0.07
Famil
-0.06
ию
-0.06
ﺼ
-0.06
».
-0.06
POSITIVE LOGITS
theater
0.07
eteria
0.07
efs
0.07
령
0.07
đợi
0.07
fried
0.07
/fs
0.07
펠
0.07
abortion
0.07
("""0.06
Activations Density 0.002%