INDEX
Negative Logits
l
-0.07
никто
-0.07
Merlin
-0.07
rl
-0.07
.MAX
-0.07
te
-0.07
_xt
-0.07
nobody
-0.07
deter
-0.07
_iter
-0.07
POSITIVE LOGITS
US
0.11
ious
0.10
ous
0.10
us
0.09
antis
0.08
BUS
0.08
ου
0.08
LESS
0.08
ius
0.08
IOUS
0.08
Activations Density 0.065%