INDEX
Negative Logits
dex
-0.10
esc
-0.07
dw
-0.07
>>,
-0.07
w
-0.07
خر
-0.07
percept
-0.07
AF
-0.07
†
-0.07
_in
-0.07
POSITIVE LOGITS
dirig
0.08
Conven
0.08
Boo
0.08
conven
0.08
Houston
0.08
consol
0.07
অ
0.07
Bart
0.07
Payne
0.07
秀
0.07
Activations Density 0.005%