INDEX
Negative Logits
rever
-0.08
배
-0.07
λά
-0.07
Fort
-0.07
det
-0.07
E
-0.07
figure
-0.07
Ver
-0.07
Gret
-0.07
five
-0.06
POSITIVE LOGITS
On
0.13
On
0.11
ON
0.10
on
0.10
on
0.09
-On
0.09
ON
0.08
_On
0.08
’on
0.08
"On
0.08
Activations Density 0.022%