INDEX
Negative Logits
Severity
-0.07
oven
-0.07
messageId
-0.07
子
-0.07
Oven
-0.07
texts
-0.07
(shift
-0.06
Arbitrary
-0.06
hotel
-0.06
notices
-0.06
POSITIVE LOGITS
ROTO
0.06
イル
0.06
bị
0.06
ofilm
0.06
!!
0.06
ічних
0.06
:flex
0.06
(Il
0.06
بل
0.06
,可以
0.06
Activations Density 0.002%