INDEX
Negative Logits
Layer
-0.07
lix
-0.06
Prison
-0.06
Alien
-0.06
Fant
-0.06
Naughty
-0.06
Joseph
-0.06
Nice
-0.06
Strings
-0.06
*r
-0.06
POSITIVE LOGITS
CTIONS
0.07
Conn
0.07
paw
0.07
chez
0.06
ARG
0.06
pac
0.06
PCI
0.06
iron
0.06
(min
0.06
.mutex
0.06
Activations Density 0.003%