INDEX
Negative Logits
`=
0.51
Без
0.46
éter
0.45
徬
0.44
Без
0.43
phal
0.41
ैट
0.40
rád
0.40
بير
0.39
如下图
0.39
POSITIVE LOGITS
either
0.45
Either
0.42
消费
0.41
terr
0.39
drain
0.37
인다
0.37
thổ
0.37
rov
0.37
🕍
0.36
immediate
0.36
Activations Density 0.001%