INDEX
Negative Logits
our
-0.08
SHE
-0.08
en
-0.07
_Email
-0.07
Rew
-0.07
emojis
-0.07
Kop
-0.07
grow
-0.06
engr
-0.06
Elo
-0.06
POSITIVE LOGITS
Pacific
0.16
Pacific
0.13
Atlantic
0.10
-Pacific
0.10
Pac
0.09
bac
0.08
acific
0.08
Caf
0.07
AC
0.07
ak
0.07
Activations Density 0.005%