INDEX
Negative Logits
Positive
-0.07
swap
-0.07
faults
-0.06
علوم
-0.06
ε
-0.06
briefed
-0.06
.FETCH
-0.06
aio
-0.06
_students
-0.06
諾
-0.06
POSITIVE LOGITS
BJP
0.07
fuck
0.07
0.06
_Find
0.06
sunscreen
0.06
fire
0.06
险
0.06
ทำ
0.06
Except
0.06
использов
0.06
Activations Density 0.001%