INDEX
Negative Logits
(Common
-0.07
cares
-0.07
מעלה
-0.07
כללי
-0.07
iness
-0.07
)],↵
-0.07
tid
-0.06
_CONN
-0.06
.dirty
-0.06
---------↵
-0.06
POSITIVE LOGITS
BUG
0.07
策划
0.07
iropr
0.07
doi
0.06
ᕑ
0.06
Applicant
0.06
رص
0.06
Wal
0.06
appellant
0.06
.How
0.06
Activations Density 0.003%