INDEX
Explanations
numbers followed by units or punctuation
New Auto-Interp
Negative Logits
Medal
0.43
erm
0.40
皿
0.38
banner
0.37
Nok
0.36
traveller
0.35
বাসিন্দ
0.35
лимпий
0.35
mist
0.35
выход
0.35
POSITIVE LOGITS
シャレ
0.42
遶
0.40
Gregorio
0.40
figs
0.40
کر
0.39
লাইন
0.38
ionis
0.38
𒁀
0.38
gpio
0.38
समित
0.37
Activations Density 0.007%