INDEX
Negative Logits
using
-0.06
ýn
-0.06
Ban
-0.05
-circle
-0.05
cupid
-0.05
lém
-0.05
坐
-0.05
.ba
-0.05
dest
-0.05
Bing
-0.05
POSITIVE LOGITS
attempted
0.08
Trans
0.07
Loy
0.07
scholarships
0.07
comparison
0.07
ประม
0.07
GOR
0.07
toilets
0.07
(土
0.07
imid
0.07
Activations Density 0.024%