INDEX
Negative Logits
:-
-0.08
A
-0.07
ipes
-0.07
-spin
-0.07
:e
-0.07
:
-0.06
rins
-0.06
’re
-0.06
yaw
-0.06
!?
-0.06
POSITIVE LOGITS
haired
0.07
آمریک
0.06
结构
0.06
umo
0.06
liked
0.06
staffer
0.06
Secret
0.06
Understanding
0.06
'))↵
0.06
illusion
0.06
Activations Density 0.380%