INDEX
Negative Logits
привет
0.56
શુભેચ્છ
0.53
приветствую
0.53
શુભેચ્છાઓ
0.52
помощи
0.51
welcomes
0.50
welcoming
0.49
сообщает
0.48
goodbye
0.48
привіт
0.47
POSITIVE LOGITS
into
0.55
到
0.52
on
0.48
dient
0.46
諫
0.45
parar
0.44
pared
0.44
to
0.44
ρια
0.44
alone
0.43
Activations Density 0.003%