INDEX
Negative Logits
eigenvector
3.01
การ
2.90
duh
2.73
nya
2.72
zeitig
2.72
𝘨
2.69
ре
2.63
diri
2.54
strang
2.51
こと
2.50
POSITIVE LOGITS
er
3.83
ु
3.78
ه
3.64
ു
3.43
esque
3.30
ли
3.24
o
3.21
ার
3.16
০
3.03
дца
2.96
Activations Density 0.193%
eigenvector
การ
duh
nya
zeitig
𝘨
ре
diri
strang
こと
er
ु
ه
ു
esque
ли
o
ার
০
дца