INDEX
Negative Logits
itr
-0.08
ㅂ
-0.07
tee
-0.07
.s
-0.07
vừa
-0.07
shave
-0.07
Сов
-0.06
갑
-0.06
Św
-0.06
nya
-0.06
POSITIVE LOGITS
opped
0.07
auses
0.07
argins
0.07
另行
0.07
>{!!0.07
和社会
0.07
temas
0.07
误
0.07
bag
0.07
orts
0.07
Activations Density 0.143%