INDEX
Negative Logits
zus
-0.06
poo
-0.06
damage
-0.06
dw
-0.06
Loc
-0.06
_tau
-0.06
*e
-0.06
(label
-0.06
.dsl
-0.06
Lawson
-0.06
POSITIVE LOGITS
영
0.08
เทศ
0.07
.direct
0.07
bg
0.07
_FETCH
0.07
explore
0.07
rote
0.07
mechanisms
0.07
읍
0.06
_rooms
0.06
Activations Density 0.002%