INDEX
Negative Logits
erosion
-0.08
اهش
-0.07
_attention
-0.07
R
-0.07
bodily
-0.06
、何
-0.06
remarks
-0.06
�
-0.06
wolves
-0.06
_lhs
-0.06
POSITIVE LOGITS
synd
0.16
Synd
0.14
Consortium
0.08
nd
0.08
ynn
0.07
Costco
0.07
idend
0.07
_Do
0.07
During
0.07
Sy
0.07
Activations Density 0.002%