INDEX
Negative Logits
otro
-0.07
ا�
-0.07
barg
-0.07
yanlış
-0.07
charging
-0.07
pasar
-0.07
policies
-0.06
judicial
-0.06
_None
-0.06
-positive
-0.06
POSITIVE LOGITS
REPL
0.07
(This
0.06
cookie
0.06
iệ
0.06
_Ref
0.06
ีส
0.06
cep
0.06
bew
0.06
ustin
0.06
]]);↵
0.06
Activations Density 0.080%