INDEX
Negative Logits
Resort
-0.08
Kardashian
-0.07
IDs
-0.07
suspicious
-0.07
dating
-0.07
Archive
-0.07
tonnes
-0.07
35
-0.06
Matthews
-0.06
SW
-0.06
POSITIVE LOGITS
controle
0.07
ální
0.07
señ
0.06
щее
0.06
synerg
0.06
perce
0.06
жа
0.06
doubles
0.06
,不
0.06
движ
0.05
Activations Density 0.030%