INDEX
Negative Logits
Β
-0.07
�
-0.07
Reward
-0.07
ازات
-0.07
svém
-0.06
ública
-0.06
Soph
-0.06
الداخ
-0.06
vår
-0.06
-arrow
-0.06
POSITIVE LOGITS
și
0.07
harm
0.07
hardware
0.06
.response
0.06
ут
0.06
Enum
0.06
region
0.06
du
0.06
fine
0.06
yield
0.06
Activations Density 0.007%