INDEX
Negative Logits
-ver
-0.07
oring
-0.07
orna
-0.07
aggress
-0.06
ще
-0.06
átu
-0.06
measurable
-0.06
stand
-0.06
BER
-0.06
yielding
-0.06
POSITIVE LOGITS
(Intent
0.11
.jsdelivr
0.09
cepts
0.07
pizzas
0.06
rels
0.06
.bias
0.06
Vik
0.06
disturb
0.06
政策
0.06
��
0.06
Activations Density 0.000%