INDEX
Negative Logits
(window
-0.07
پژوهش
-0.07
더욱
-0.06
杨
-0.06
、これ
-0.06
�
-0.06
lam
-0.06
$row
-0.06
Mar
-0.06
一定
-0.06
POSITIVE LOGITS
devastation
0.08
Việc
0.07
λία
0.07
Slovak
0.07
/Instruction
0.06
яким
0.06
devast
0.06
instructions
0.06
ॉ
0.06
порядок
0.06
Activations Density 0.025%