INDEX
Negative Logits
dotycz
-0.08
Vr
-0.08
mpr
-0.08
zach
-0.08
dokon
-0.07
ligament
-0.07
Ryan
-0.07
房
-0.07
.decode
-0.07
jogging
-0.07
POSITIVE LOGITS
tendencies
0.09
oppressive
0.09
verde
0.08
authoritarian
0.08
posture
0.08
ತ್ತು
0.08
tolerated
0.08
rikt
0.08
режима
0.08
政
0.08
Activations Density 0.010%