INDEX
Negative Logits
Stage
-0.08
172
-0.07
como
-0.07
사무
-0.07
perror
-0.07
chor
-0.07
uke
-0.07
stati
-0.07
17
-0.07
Honor
-0.07
POSITIVE LOGITS
�
0.08
raham
0.07
гал
0.07
.is
0.06
…and
0.06
0.06
应用
0.06
�
0.06
.In
0.06
ycles
0.06
Activations Density 0.003%