INDEX
Negative Logits
满分
-0.07
eleg
-0.07
ANAL
-0.07
Dana
-0.07
DR
-0.06
Rebecca
-0.06
Gregory
-0.06
steak
-0.06
Def
-0.06
Świat
-0.06
POSITIVE LOGITS
hare
0.07
/weather
0.07
查阅
0.07
�
0.07
맨
0.06
ⴰ
0.06
Ѵ
0.06
哄
0.06
psychiatrist
0.06
โคร
0.06
Activations Density 0.064%