INDEX
Explanations
lists, code, and punctuation
New Auto-Interp
Negative Logits
ﺭ
0.48
prise
0.46
ार्थ
0.46
没有
0.45
الموافق
0.45
दिनी
0.45
میکن
0.44
Ր
0.44
ními
0.44
ﺁ
0.44
POSITIVE LOGITS
푐
0.61
>
0.52
ักษณะ
0.50
\
0.50
0.48
When
0.48
0.48
0.47
2
0.47
];
0.46
Activations Density 0.128%