INDEX
Negative Logits
Stra
-0.09
�
-0.08
Kud
-0.08
ùng
-0.08
pak
-0.08
overhaul
-0.08
fv
-0.08
レー
-0.07
iclop
-0.07
strained
-0.07
POSITIVE LOGITS
seud
0.09
dig
0.08
0.07
经理
0.07
inyin
0.07
ersistence
0.07
äng
0.07
̂
0.07
ouvoir
0.07
heses
0.07
Activations Density 0.185%