INDEX
Negative Logits
Å
-0.07
вк
-0.07
nag
-0.06
bigot
-0.06
SMS
-0.06
Brigham
-0.06
TESTING
-0.06
channel
-0.06
福利
-0.06
础
-0.06
POSITIVE LOGITS
sia
0.07
Dominic
0.07
ч
0.06
_os
0.06
Modern
0.06
izophren
0.06
Prepared
0.06
_preferences
0.06
그래
0.06
tud
0.06
Activations Density 0.065%