INDEX
Explanations
disclaimers or negative prefixes
New Auto-Interp
Negative Logits
)
0.53
ς
0.51
\
0.48
merken
0.48
roku
0.47
}
0.46
refers
0.45
jedes
0.45
$
0.45
\">
0.43
POSITIVE LOGITS
otica
0.50
ưng
0.50
وية
0.48
懑
0.47
被
0.47
poca
0.46
ار
0.46
ش
0.45
𝔱
0.45
اند
0.44
Activations Density 0.274%