INDEX
Negative Logits
Arn
-0.07
าระ
-0.06
homers
-0.06
beating
-0.06
76
-0.06
ні
-0.06
حد
-0.06
Ideally
-0.06
NP
-0.06
.Re
-0.06
POSITIVE LOGITS
Fuck
0.07
ogue
0.06
教育
0.06
supportive
0.06
اقتص
0.06
Fashion
0.06
Object
0.06
Fuck
0.06
verilen
0.06
iture
0.06
Activations Density 0.002%