INDEX
Negative Logits
[idx
-0.06
/*
-0.06
inf
-0.06
.getP
-0.06
harassing
-0.06
kvinn
-0.05
jug
-0.05
Cr
-0.05
ridiculously
-0.05
Declared
-0.05
POSITIVE LOGITS
_MR
0.07
يق
0.07
ему
0.07
círk
0.06
_stats
0.06
inned
0.06
النس
0.06
failures
0.06
UTERS
0.06
Comic
0.06
Activations Density 0.019%