INDEX
Negative Logits
nop
0.46
wur
0.44
deme
0.44
their
0.44
actions
0.44
pseudos
0.43
dah
0.43
margin
0.43
redacted
0.42
leurs
0.41
POSITIVE LOGITS
蛩
0.41
κυ
0.41
йөк
0.40
しましょう
0.40
菽
0.39
எதிர்க
0.38
ুঁ
0.38
সাধারণত
0.38
运输
0.38
ሆ
0.38
Activations Density 0.000%