INDEX
Negative Logits
kn
-0.08
gre
-0.08
їх
-0.07
RN
-0.07
styl
-0.07
_CONTACT
-0.07
ruh
-0.06
лан
-0.06
predictors
-0.06
atemala
-0.06
POSITIVE LOGITS
bara
0.07
degli
0.06
своего
0.06
durch
0.06
_crypto
0.06
również
0.06
Brilliant
0.06
sice
0.06
자를
0.06
<Self
0.06
Activations Density 0.063%