INDEX
Negative Logits
0.47
0.46
0.44
0.42
indicates
0.42
0.41
0.41
a
0.41
0.41
avoids
0.41
POSITIVE LOGITS
τότε
0.46
centaines
0.44
soooo
0.43
zupeł
0.41
ですし
0.39
люди
0.39
prestaciones
0.39
совсем
0.38
रिश्
0.38
partout
0.38
Activations Density 0.112%