INDEX
Explanations
foreign languages and Arabic words
New Auto-Interp
Negative Logits
ᓐ
0.74
y
0.72
ldon
0.71
x
0.69
v
0.65
yum
0.64
Ace
0.63
ld
0.62
g
0.62
י
0.62
POSITIVE LOGITS
所有的
0.73
உருவாக்க
0.70
retros
0.70
jednak
0.69
matte
0.69
गणपति
0.69
walnuts
0.68
وہاں
0.68
fingert
0.68
sightings
0.68
Activations Density 0.001%