INDEX
Negative Logits
g
0.51
ные
0.50
взя
0.50
의
0.50
В
0.46
функції
0.46
För
0.45
duyệt
0.45
các
0.44
0.44
POSITIVE LOGITS
for
0.45
ट
0.44
encro
0.43
Abou
0.41
et
0.41
ataka
0.40
0
0.39
.
0.39
universities
0.39
affiliates
0.39
Activations Density 0.001%