INDEX
Negative Logits
leur
-0.07
laugh
-0.07
read
-0.07
welcome
-0.07
engineer
-0.06
отдел
-0.06
);}↵
-0.06
ders
-0.06
done
-0.06
.access
-0.06
POSITIVE LOGITS
prostate
0.15
zheimer
0.07
Estate
0.07
روان
0.07
xpath
0.07
-figure
0.06
state
0.06
STATE
0.06
prostitu
0.06
姓名
0.06
Activations Density 0.002%