INDEX
Negative Logits
anything
-1.41
различ
-1.29
you
-1.20
ところに
-1.18
effect
-1.16
為に
-1.16
various
-1.16
whereas
-1.15
Fußballspieler
-1.14
successivamente
-1.13
POSITIVE LOGITS
=
1.94
は
1.28
Siapa
1.23
}=\
1.20
pourrait
1.20
ponemos
1.20
やろ
1.20
というわけで
1.17
propped
1.17
さんは
1.16
Activations Density 0.019%