INDEX
Negative Logits
imitation
-0.07
thị
-0.06
alist
-0.06
sciences
-0.06
аем
-0.06
овал
-0.06
-domain
-0.06
ced
-0.06
oire
-0.06
Když
-0.06
POSITIVE LOGITS
ew
0.07
storyt
0.06
owering
0.06
swapped
0.06
mozilla
0.06
år
0.06
(reply
0.06
(exit
0.06
�
0.06
۱۶
0.06
Activations Density 0.002%