INDEX
Negative Logits
ploy
-0.08
景
-0.07
_rand
-0.07
-0.07
coping
-0.07
fairness
-0.07
weg
-0.07
Ν
-0.07
endiz
-0.07
ще
-0.07
POSITIVE LOGITS
wata
0.08
CLE
0.08
crest
0.08
Virgin
0.08
lax
0.08
баз
0.07
pens
0.07
draad
0.07
pasi
0.07
Virgin
0.07
Activations Density 0.001%