INDEX
Negative Logits
Virgin
-0.07
天赋
-0.07
臻
-0.07
copyright
-0.07
汽
-0.07
.bias
-0.07
向社会
-0.07
辙
-0.07
Align
-0.06
apt
-0.06
POSITIVE LOGITS
렇
0.07
fäh
0.07
iren
0.07
////////////////////////////////////////////////////////
0.07
-Am
0.07
עיני
0.07
jącym
0.07
ива
0.07
наблю
0.07
_MI
0.07
Activations Density 0.001%