INDEX
Negative Logits
strange
-0.07
uchar
-0.06
irect
-0.06
-cn
-0.06
lose
-0.06
_histogram
-0.06
trag
-0.06
끝
-0.06
aru
-0.06
✔
-0.06
POSITIVE LOGITS
дос
0.08
безопас
0.07
hated
0.07
:v
0.07
morals
0.06
_TOKEN
0.06
toast
0.06
term
0.06
ayant
0.06
BLOCK
0.06
Activations Density 0.016%