INDEX
Explanations
news articles or reports that contain specific names and details
New Auto-Interp
Neuron Alignment
Index
Value
% of L₁
1343
+0.10
0.3%
1741
+0.09
0.3%
198
+0.08
0.2%
Correlated Neurons
Index
P. Corr.
Cos Sim.
799
+0.10
0.02
975
+0.09
0.02
275
+0.08
0.02
Negative Logits
untenable
-0.47
ről
-0.47
enumi
-0.47
wikidata
-0.46
جیب
-0.45
млрд
-0.45
ůli
-0.45
]<<"
-0.45
另一
-0.45
ненный
-0.44
POSITIVE LOGITS
exé
0.93
véhic
0.89
ritard
0.88
redé
0.88
répon
0.86
confé
0.84
peculi
0.84
prétend
0.84
télécharge
0.84
dovr
0.84
Activations Density 0.069%