INDEX
Negative Logits
ci
-0.08
automobile
-0.08
carreg
-0.07
ienced
-0.07
دین
-0.07
alerg
-0.07
fab
-0.07
驾
-0.07
Schnitt
-0.07
عي
-0.07
POSITIVE LOGITS
protesting
0.08
corrupt
0.07
sorts
0.07
Magn
0.07
_AMOUNT
0.07
انة
0.07
้ำ
0.07
Amount
0.07
Бан
0.07
positions
0.07
Activations Density 0.000%