INDEX
Negative Logits
repos
0.45
也不能
0.42
Pel
0.41
dior
0.40
religieux
0.40
Pel
0.40
pretended
0.40
almo
0.38
نمود
0.38
moderate
0.38
POSITIVE LOGITS
Setter
0.39
を採用
0.38
девушка
0.38
ㅋㅋ
0.37
breadcrumbs
0.37
impactful
0.37
外国人
0.37
Measurement
0.36
愁
0.36
ചേർ
0.35
Activations Density 0.002%