INDEX
Negative Logits
Dak
-0.07
幸
-0.07
Mug
-0.07
původ
-0.06
socially
-0.06
iyat
-0.06
린이
-0.06
Studi
-0.06
πολι
-0.06
σμού
-0.06
POSITIVE LOGITS
perder
0.06
gly
0.06
січня
0.06
watchdog
0.06
TypeInfo
0.06
|^
0.06
laví
0.06
trem
0.06
efore
0.06
Alexandra
0.06
Activations Density 0.021%