INDEX
Negative Logits
dive
0.43
igan
0.39
mistake
0.39
Dive
0.38
sprzedaży
0.37
फाइनल
0.36
aginaw
0.36
dives
0.36
sucesivamente
0.36
менее
0.35
POSITIVE LOGITS
निर्धारित
0.41
ट्टर
0.40
rantes
0.38
outburst
0.37
outbursts
0.37
谈判
0.37
哄
0.37
Mar
0.37
তাহাদের
0.37
독
0.37
Activations Density 0.006%