INDEX
Negative Logits
Bor
-0.09
Bor
-0.08
_blob
-0.08
folly
-0.07
sz
-0.07
_DIG
-0.07
appl
-0.07
emoji
-0.07
fairy
-0.07
ton
-0.07
POSITIVE LOGITS
workplace
0.08
cavalry
0.08
går
0.07
NAC
0.07
prestat
0.07
licant
0.07
Rh
0.07
si
0.07
mistaken
0.07
nic
0.07
Activations Density 0.001%