INDEX
Negative Logits
такого
-0.08
sexual
-0.08
monument
-0.07
replay
-0.07
predominantly
-0.07
(self
-0.07
[section
-0.07
евые
-0.07
nale
-0.06
*(-
-0.06
POSITIVE LOGITS
بیر
0.06
straw
0.06
�
0.06
compel
0.06
既
0.06
poison
0.06
rvine
0.06
�
0.06
Ü
0.06
.telegram
0.06
Activations Density 0.012%