INDEX
Negative Logits
-themed
-0.08
hadn't
-0.08
tivesse
-0.08
کل
-0.08
kyt
-0.07
lu
-0.07
phrase
-0.07
práct
-0.07
moderate
-0.07
Moder
-0.07
POSITIVE LOGITS
骗局
0.10
骗
0.09
导致
0.09
hyst
0.09
أمريكا
0.08
邪
0.08
骗子
0.08
(save
0.08
wrongly
0.08
save
0.08
Activations Density 0.161%