INDEX
Negative Logits
yd
0.44
OVER
0.41
LES
0.41
Ed
0.39
yses
0.38
MORE
0.38
intend
0.38
Ideal
0.38
ETIC
0.37
ANTH
0.37
POSITIVE LOGITS
tot
0.47
ême
0.45
otricha
0.42
cosi
0.41
popupIsOpen
0.40
Tot
0.38
梟
0.38
terdam
0.38
Casi
0.38
組
0.38
Activations Density 0.003%