INDEX
Negative Logits
n
0.57
тод
0.55
ingestion
0.53
Aldi
0.53
café
0.51
рель
0.51
o
0.50
νε
0.50
nics
0.49
degeneration
0.48
POSITIVE LOGITS
కు
0.61
is
0.57
กลับ
0.54
drugih
0.54
ことが
0.54
arrison
0.54
деталей
0.53
ש
0.52
{0.52
rubbed
0.52
Activations Density 0.000%