INDEX
Explanations
The neuron activates on phrases indicating formal inductions into halls of fame or similar honorary recognitions.
New Auto-Interp
Negative Logits
iterr
-0.08
bcd
-0.07
bens
-0.07
SI
-0.07
Supplier
-0.07
gam
-0.07
lyr
-0.07
ait
-0.07
exo
-0.07
し
-0.06
POSITIVE LOGITS
腰
0.07
审
0.06
效果
0.06
випадку
0.06
обол
0.06
目の
0.06
документів
0.06
elsif
0.06
srdce
0.06
없음
0.06
Activations Density 0.005%