INDEX
Negative Logits
inversion
-0.07
faults
-0.07
των
-0.06
які
-0.06
ferv
-0.06
_full
-0.06
τή
-0.06
DNS
-0.06
'.'
-0.06
Spanish
-0.06
POSITIVE LOGITS
EVER
0.07
α
0.07
prostě
0.07
غر
0.07
IID
0.07
719
0.07
Ziel
0.06
strength
0.06
460
0.06
instincts
0.06
Activations Density 0.024%