INDEX
Negative Logits
outspoken
-0.07
Phys
-0.07
立
-0.06
王
-0.06
_dropdown
-0.06
ucs
-0.06
-oriented
-0.06
політи
-0.06
felse
-0.06
inconsistency
-0.06
POSITIVE LOGITS
lld
0.06
,
0.06
परम
0.06
disreg
0.06
расс
0.06
.pending
0.06
ylon
0.05
GAL
0.05
ても
0.05
gba
0.05
Activations Density 0.100%