INDEX
Negative Logits
|(↵
-0.09
Tray
-0.08
iodine
-0.08
vd
-0.08
Ban
-0.08
raz
-0.08
כך
-0.07
ान
-0.07
Bab
-0.07
irge
-0.07
POSITIVE LOGITS
-ish
0.08
Dl
0.08
lc
0.08
سازی
0.07
Wayne
0.07
Bull
0.07
DJ
0.07
.Entity
0.07
lar
0.07
dum
0.07
Activations Density 0.005%