INDEX
Negative Logits
tox
0.91
soluble
0.90
influencer
0.89
smaller
0.88
prohibit
0.88
lethal
0.88
取决于
0.88
Bach
0.87
ornamental
0.86
sofa
0.86
POSITIVE LOGITS
𝙪
0.89
ಙ
0.89
דה
0.88
आ
0.87
廾
0.87
Après
0.85
oWord
0.84
ку
0.84
പു
0.84
𝙥
0.83
Activations Density 0.000%