INDEX
Explanations
This neuron activates on Cyrillic-script tokens, effectively detecting Russian text.
New Auto-Interp
Negative Logits
Smith
-0.08
439
-0.07
41
-0.07
497
-0.07
443
-0.07
practitioner
-0.07
44
-0.07
Femin
-0.07
ucceeded
-0.07
LU
-0.07
POSITIVE LOGITS
&&(
0.07
바람
0.07
Мон
0.07
abbrev
0.06
一个
0.06
Κατηγορία
0.06
Conexion
0.06
cardboard
0.06
.Lines
0.06
'.';↵
0.06
Activations Density 0.223%