INDEX
Negative Logits
iter
-0.07
Sl
-0.07
France
-0.06
Ju
-0.06
四
-0.06
Sl
-0.06
attacking
-0.06
-prop
-0.06
Millet
-0.06
Ar
-0.06
POSITIVE LOGITS
>"
0.06
Terms
0.06
ILON
0.06
JOR
0.06
unsure
0.06
яти
0.06
"][
0.06
ALLED
0.06
asyon
0.06
(confirm
0.06
Activations Density 0.003%