INDEX
Explanations
comments or notes in code
New Auto-Interp
Negative Logits
s
-0.55
Ùĩ
-0.27
ska
-0.22
sian
-0.20
sik
-0.20
sah
-0.19
es
-0.19
Ñĭ
-0.19
sie
-0.19
न
-0.18
POSITIVE LOGITS
à¹ĥà¸Ī
0.15
بÙĪØ§Ø¨Ø©
0.15
""".
0.15
æĢ§çļĦ
0.14
ìĦľ
0.14
ORY
0.14
ogi
0.14
ÙĦÙģ
0.14
consc
0.14
atre
0.14
Activations Density 0.179%