INDEX
Negative Logits
Title
-0.08
comic
-0.07
ice
-0.07
polar
-0.07
possibile
-0.07
pus
-0.07
imore
-0.06
-system
-0.06
dubna
-0.06
-free
-0.06
POSITIVE LOGITS
hardt
0.07
rand
0.07
stocking
0.06
保障
0.06
Rand
0.06
Shepard
0.06
Making
0.06
Ramsey
0.06
ourced
0.06
هستند
0.06
Activations Density 0.003%