INDEX
Negative Logits
repr
-0.06
thest
-0.06
ellaneous
-0.06
and
-0.06
Com
-0.06
ていない
-0.06
Supern
-0.06
selling
-0.06
nung
-0.06
_stand
-0.06
POSITIVE LOGITS
5
0.08
6
0.08
1
0.07
0
0.07
了一
0.07
20
0.07
2
0.07
3
0.07
6
0.07
ա
0.07
Activations Density 0.132%