INDEX
Negative Logits
cakes
1.08
ant
1.08
ب
1.08
iro
1.07
els
1.04
nas
1.04
ativo
1.02
在外
1.00
pomer
0.98
ę
0.97
POSITIVE LOGITS
ы
1.40
ित
1.35
я
1.29
ме
1.22
ؒ
1.18
𝙀
1.16
1.16
ポリシー
1.16
requencies
1.14
ни
1.14
Activations Density 0.001%
cakes
ant
ب
iro
els
nas
ativo
在外
pomer
ę
ы
ित
я
ме
ؒ
𝙀
ポリシー
requencies
ни