INDEX
Negative Logits
statutes
-0.08
.Popup
-0.07
他們
-0.06
werk
-0.06
attributed
-0.06
BBB
-0.06
それ
-0.06
POR
-0.06
부
-0.06
Lâm
-0.06
POSITIVE LOGITS
каль
0.07
orn
0.07
tow
0.06
jorn
0.06
Four
0.06
cookie
0.06
(f
0.06
hai
0.06
sovere
0.06
ADVISED
0.06
Activations Density 0.003%