INDEX
Negative Logits
eq
-0.07
,再
-0.07
พาะ
-0.06
kommen
-0.06
halt
-0.06
duplicate
-0.06
Okay
-0.06
contact
-0.06
_centers
-0.06
Tut
-0.06
POSITIVE LOGITS
unut
0.08
мит
0.07
warts
0.07
φορ
0.06
warmth
0.06
чер
0.06
assort
0.06
otion
0.06
�
0.06
ΑΤ
0.06
Activations Density 0.131%