INDEX
Explanations
foreign or non-english words
New Auto-Interp
Negative Logits
надца
1.20
~$
1.12
हज़ार
1.12
যজ্ঞ
1.09
ற்றிய
1.04
ս
1.02
целей
1.02
শিরোনাম
1.00
ленного
0.97
dispara
0.97
POSITIVE LOGITS
g
1.07
اً
1.05
don
1.05
söz
0.99
wenn
0.98
ag
0.98
koji
0.98
bude
0.98
besta
0.97
Hitler
0.97
Activations Density 0.001%