INDEX
Negative Logits
Worse
-0.07
Qui
-0.07
Apparel
-0.06
eper
-0.06
UDO
-0.06
лік
-0.06
ROID
-0.06
กว
-0.06
ाश
-0.06
ego
-0.06
POSITIVE LOGITS
만족
0.07
mailed
0.07
infant
0.07
符合
0.07
Option
0.07
educated
0.06
Matth
0.06
fm
0.06
=train
0.06
shortcuts
0.06
Activations Density 0.024%