INDEX
Negative Logits
strap
-0.08
guarded
-0.08
adv
-0.08
sut
-0.07
suprem
-0.07
straps
-0.07
زند
-0.07
낸
-0.07
�
-0.07
accus
-0.07
POSITIVE LOGITS
rim
0.08
lifted
0.08
Ged
0.08
hew
0.07
அதிக
0.07
olaraq
0.07
네
0.07
ியான
0.07
ge
0.07
Pup
0.07
Activations Density 0.003%