INDEX
Explanations
proper nouns, especially names and titles
New Auto-Interp
Negative Logits
#ac
-0.10
#ab
-0.10
srd
-0.08
ì£
-0.08
//{{-0.08
ãĥŃãĥ³
-0.08
κά
-0.08
áme
-0.07
#af
-0.07
ütün
-0.07
POSITIVE LOGITS
â̦↵↵
0.06
â̦↵
0.06
anmar
0.06
â̦”
0.05
æ°ı
0.05
â̦.
0.05
.AutoSizeMode
0.05
himself
0.05
commend
0.05
dys
0.05
Activations Density 0.008%