INDEX
Explanations
the word "only" placed before a noun
New Auto-Interp
Neuron Alignment
Index
Value
% of L₁
897
+0.11
0.4%
32
+0.10
0.3%
1438
+0.10
0.3%
Correlated Neurons
Index
P. Corr.
Cos Sim.
1562
+0.11
0.03
2030
+0.10
0.03
1622
+0.10
0.02
Negative Logits
progressivement
-0.65
librement
-0.63
conformément
-0.62
aussitôt
-0.61
préférable
-0.61
nécessairement
-0.61
exemplaire
-0.60
satisfait
-0.59
justement
-0.59
précédemment
-0.59
POSITIVE LOGITS
thing
0.68
satunya
0.58
reason
0.55
THING
0.52
churrasco
0.52
remaining
0.51
way
0.50
spion
0.49
viable
0.49
staden
0.49
Activations Density 0.070%