INDEX
Explanations
multilingual punctuation and symbols
New Auto-Interp
Negative Logits
\
0.68
리
0.58
কে
0.58
ری
0.57
2
0.57
ست
0.57
_
0.57
로
0.55
arterioles
0.55
פ
0.54
POSITIVE LOGITS
in
0.67
吗
0.63
ों
0.57
ים
0.57
แม
0.57
ও
0.56
gebruiken
0.55
и
0.53
ют
0.52
geeft
0.52
Activations Density 0.022%