INDEX
Negative Logits
Responder
-0.07
Emin
-0.07
oted
-0.06
事
-0.06
arent
-0.06
umpy
-0.06
に行
-0.06
,U
-0.06
alat
-0.06
ulant
-0.06
POSITIVE LOGITS
Бор
0.07
мал
0.07
primera
0.07
十四
0.06
بدان
0.06
discomfort
0.06
.all
0.06
Bras
0.06
Beginning
0.06
setEmail
0.06
Activations Density 0.001%