INDEX
Negative Logits
Accuracy
-0.08
in
-0.07
illustrative
-0.07
démarches
-0.07
Appro
-0.07
524
-0.07
impost
-0.07
nader
-0.07
GA
-0.07
Emb
-0.07
POSITIVE LOGITS
笑
0.09
laughter
0.09
째
0.09
COLORS
0.08
basin
0.08
gın
0.08
�
0.08
Brown
0.08
bina
0.08
顔
0.08
Activations Density 0.010%