INDEX
Negative Logits
na
0.55
niya
0.53
nila
0.50
namin
0.50
naman
0.50
lamang
0.48
Moris
0.44
ních
0.44
ját
0.43
umano
0.43
POSITIVE LOGITS
不可以
0.40
par
0.39
impossible
0.39
ores
0.38
lettere
0.38
parler
0.38
Hay
0.37
ore
0.37
forbid
0.37
ew
0.36
Activations Density 0.001%