INDEX
Negative Logits
lief
-0.09
disguise
-0.08
Took
-0.08
uart
-0.08
折
-0.08
èr
-0.08
毛
-0.08
ечат
-0.07
圈
-0.07
奖
-0.07
POSITIVE LOGITS
GO
0.08
gte
0.07
diam
0.07
multif
0.07
ensuing
0.07
dx
0.07
—
0.07
worship
0.07
−
0.07
arena
0.07
Activations Density 0.018%