INDEX
Negative Logits
ять
0.47
impot
0.45
ారులు
0.42
alienated
0.42
િતા
0.42
entendeu
0.41
锗
0.41
되고
0.40
намере
0.40
čega
0.39
POSITIVE LOGITS
answers
0.68
answers
0.60
odpowiedzi
0.59
réponses
0.58
respuestas
0.55
Answers
0.55
Antworten
0.54
svar
0.52
répond
0.50
専門
0.49
Activations Density 0.015%