INDEX
Negative Logits
control
-0.06
(hand
-0.06
Strip
-0.06
SP
-0.06
ISTS
-0.06
_STR
-0.06
INGER
-0.06
ERA
-0.05
YRO
-0.05
hů
-0.05
POSITIVE LOGITS
思想
0.07
#'
0.07
Saskatchewan
0.07
Freeze
0.07
outil
0.07
vời
0.07
기간
0.06
Machine
0.06
Newton
0.06
patched
0.06
Activations Density 0.016%