INDEX
Negative Logits
_du
-0.08
.sg
-0.08
dont
-0.08
לע
-0.08
vivo
-0.07
lol
-0.07
wax
-0.07
Ras
-0.07
gef
-0.07
boy
-0.07
POSITIVE LOGITS
Karen
0.09
ADF
0.08
Mr
0.08
tal
0.08
Karen
0.07
लगे
0.07
definit
0.07
Ward
0.07
pod
0.07
td
0.07
Activations Density 0.026%