INDEX
Negative Logits
Att
-0.08
-0.08
Att
-0.08
Einstein
-0.07
reserv
-0.07
__.__
-0.07
benef
-0.07
Reserv
-0.07
FB
-0.07
Ane
-0.07
POSITIVE LOGITS
intervene
0.09
对此
0.09
hingegen
0.08
에서는
0.08
则
0.08
laugh
0.08
随后
0.08
laughed
0.08
supportive
0.08
вмеш
0.08
Activations Density 0.114%