INDEX
Negative Logits
tactic
-0.08
ổng
-0.07
sour
-0.07
POLITICO
-0.07
defer
-0.06
quential
-0.06
ān
-0.06
角色
-0.06
卡
-0.06
Behaviour
-0.06
POSITIVE LOGITS
승
0.07
sealed
0.07
등을
0.07
اکی
0.07
区
0.07
важно
0.06
ा↵↵
0.06
-нибудь
0.06
unnecessarily
0.06
faculty
0.06
Activations Density 0.000%