INDEX
Negative Logits
Wir
-0.07
eighteen
-0.06
606
-0.06
bit
-0.06
�
-0.06
609
-0.06
кус
-0.06
01
-0.06
hyp
-0.06
цю
-0.06
POSITIVE LOGITS
owering
0.07
productive
0.07
anded
0.07
iva
0.07
Viking
0.07
dziewcz
0.07
accountable
0.07
多い
0.06
Neal
0.06
:)↵
0.06
Activations Density 0.013%