INDEX
Negative Logits
Targets
-0.07
030
-0.07
(messages
-0.07
foam
-0.07
ків
-0.06
Foam
-0.06
.decorators
-0.06
_ATTRIBUTES
-0.06
precio
-0.06
pron
-0.06
POSITIVE LOGITS
قادر
0.07
ใหม
0.07
ư
0.06
................
0.06
naken
0.06
Rory
0.06
Jazeera
0.06
embarrassing
0.06
userName
0.06
gunshot
0.06
Activations Density 0.026%