INDEX
Negative Logits
!=
-0.08
/index
-0.07
convin
-0.07
-0.07
apes
-0.07
بلاغ
-0.07
justified
-0.07
代理
-0.07
hockey
-0.07
at
-0.06
POSITIVE LOGITS
daar
0.09
czyli
0.09
adalah
0.09
.medium
0.09
ką
0.09
ialah
0.08
hingegen
0.08
ээд
0.08
是一
0.08
个位
0.08
Activations Density 0.010%