INDEX
Negative Logits
розум
-0.07
chos
-0.06
ترجم
-0.06
itives
-0.06
цен
-0.06
�
-0.06
отп
-0.06
власти
-0.06
работ
-0.06
киш
-0.06
POSITIVE LOGITS
];↵↵
0.07
anti
0.07
Ultr
0.06
orbit
0.06
wiki
0.06
/W
0.06
472
0.06
non
0.06
agree
0.06
으
0.06
Activations Density 0.000%