INDEX
Negative Logits
sou
-0.08
Sou
-0.08
Flo
-0.08
Flo
-0.07
réjou
-0.07
Louisiana
-0.07
oston
-0.07
FAR
-0.07
Lou
-0.07
ouri
-0.07
POSITIVE LOGITS
...,
0.08
scratches
0.08
pletion
0.07
/how
0.07
�a
0.07
�
0.07
certa
0.07
-muted
0.07
perjud
0.07
Hitler
0.07
Activations Density 0.002%