INDEX
Explanations
stating existence or presence
New Auto-Interp
Negative Logits
nothing
0.32
ktoś
0.29
ничего
0.27
NOTHING
0.27
someone
0.26
nichts
0.25
nada
0.25
iemand
0.24
trolls
0.23
jemand
0.23
POSITIVE LOGITS
மிகுந்த
0.25
Fourier
0.22
Mol
0.21
Eigent
0.21
ђе
0.21
广泛
0.20
Un
0.20
widely
0.20
MIG
0.19
Miguel
0.19
Activations Density 0.011%