INDEX
Negative Logits
accustomed
-0.08
[arg
-0.07
כשה
-0.07
uży
-0.07
帮我
-0.07
Зна
-0.07
.asc
-0.07
�
-0.07
śc
-0.07
(Self
-0.07
POSITIVE LOGITS
permit
0.07
stderr
0.07
핼
0.07
强有力
0.07
poisoned
0.07
perfil
0.06
barcode
0.06
disable
0.06
Ⲏ
0.06
implies
0.06
Activations Density 0.003%