INDEX
Negative Logits
travers
-0.08
↵ ↵
-0.08
فهو
-0.07
forest
-0.07
.nb
-0.07
㎢
-0.07
=c
-0.07
foods
-0.07
ᥔ
-0.07
𝖘
-0.07
POSITIVE LOGITS
מונים
0.07
헐
0.07
웩
0.07
ﭹ
0.07
giochi
0.07
ตาร
0.07
polator
0.06
表演
0.06
试试
0.06
deceive
0.06
Activations Density 0.001%