INDEX
Negative Logits
motor
-0.07
intercourse
-0.07
posting
-0.06
feet
-0.06
Ế
-0.06
FER
-0.06
Vtbl
-0.06
IMP
-0.06
变化
-0.06
mountains
-0.06
POSITIVE LOGITS
_weak
0.07
_this
0.07
.span
0.07
womens
0.06
langu
0.06
[hash
0.06
桌
0.06
розгля
0.06
389
0.06
ruž
0.06
Activations Density 0.034%