INDEX
Negative Logits
offended
-0.08
suffering
-0.07
ена
-0.07
!\
-0.07
.&
-0.07
mr
-0.07
工程
-0.07
appen
-0.06
赶上
-0.06
det
-0.06
POSITIVE LOGITS
<b
0.07
бир
0.07
sku
0.07
/items
0.07
.cam
0.07
/antlr
0.07
książ
0.07
ersistence
0.07
ARCH
0.06
anecd
0.06
Activations Density 0.534%