INDEX
Negative Logits
Hof
-0.08
gid
-0.07
clen
-0.07
déten
-0.07
الغ
-0.07
Pho
-0.07
Syr
-0.07
ogr
-0.07
lor
-0.07
clog
-0.07
POSITIVE LOGITS
importantly
0.09
because
0.08
?),
0.08
lagi
0.07
wobei
0.07
потому
0.07
nond
0.07
assuming
0.07
.stereotype
0.07
unfortunate
0.07
Activations Density 0.068%