INDEX
Negative Logits
preference
-0.07
Gil
-0.06
fi
-0.06
jm
-0.06
okul
-0.06
all
-0.06
Russia
-0.06
гра
-0.06
ิง
-0.06
offen
-0.06
POSITIVE LOGITS
collapse
0.06
hdr
0.06
kiss
0.06
_IDX
0.06
scape
0.06
peg
0.06
inations
0.06
ต
0.06
_release
0.06
الذه
0.06
Activations Density 0.257%