INDEX
Negative Logits
deh
0.70
inha
0.65
在
0.64
ानंतर
0.64
iba
0.64
zahrani
0.63
brasileiros
0.62
们的
0.60
ங்களின்
0.59
ایرانی
0.59
POSITIVE LOGITS
निष्ठ
0.93
Lil
0.86
language
0.85
리뷰
0.85
anguage
0.84
TodoList
0.84
speakers
0.84
текст
0.83
tense
0.82
loser
0.82
Activations Density 0.327%