INDEX
Negative Logits
梁
-0.08
cant
-0.08
jective
-0.07
.strict
-0.07
ord
-0.07
bient
-0.07
Got
-0.07
III
-0.07
咪
-0.07
agory
-0.07
POSITIVE LOGITS
encl
0.08
TEM
0.08
reh
0.08
Friedman
0.08
akar
0.08
TEM
0.08
MEN
0.07
ী
0.07
оз
0.07
алах
0.07
Activations Density 0.001%