INDEX
Negative Logits
The
0.44
உள்ளிட்ட
0.41
ne
0.41
OD
0.38
the
0.37
De
0.37
ot
0.36
def
0.36
yl
0.35
இணைந்து
0.35
POSITIVE LOGITS
prostit
0.39
raping
0.39
naciones
0.38
প্রতার
0.37
craziness
0.37
Москвы
0.37
underdog
0.37
bullies
0.36
odio
0.35
corrupción
0.35
Activations Density 0.001%