INDEX
Negative Logits
新作
0.41
kalau
0.40
^=
0.40
keduanya
0.39
هوا
0.38
Linda
0.38
kebijakan
0.38
มากขึ้น
0.38
friendship
0.37
সময়
0.37
POSITIVE LOGITS
drei
0.44
three
0.43
interpret
0.43
Vocabulary
0.42
three
0.42
Vocabulary
0.42
interpr
0.41
0.41
stimulates
0.41
तीन
0.40
Activations Density 0.002%