INDEX
Negative Logits
l
0.59
↵
0.55
us
0.53
and
0.51
in
0.49
5
0.47
4
0.46
ne
0.44
Whit
0.43
/
0.43
POSITIVE LOGITS
atorias
0.49
безопас
0.48
стояние
0.46
дә
0.44
услуги
0.44
edics
0.42
ară
0.42
َة
0.42
ointing
0.41
arang
0.40
Activations Density 0.012%