INDEX
Negative Logits
noop
-0.07
لب
-0.07
.override
-0.07
coop
-0.06
PROP
-0.06
تب
-0.06
retorno
-0.06
��
-0.06
boobs
-0.06
آذ
-0.06
POSITIVE LOGITS
filtration
0.12
Fighting
0.07
Distance
0.07
_transactions
0.07
src
0.06
unconstitutional
0.06
Dist
0.06
Perception
0.06
District
0.06
filtr
0.06
Activations Density 0.001%