INDEX
Negative Logits
pud
-0.07
Created
-0.07
Hak
-0.07
�
-0.07
safezone
-0.06
ᐞ
-0.06
tort
-0.06
<L
-0.06
헐
-0.06
האירוע
-0.06
POSITIVE LOGITS
flexibility
0.08
opts
0.08
電子郵
0.07
allah
0.07
Option
0.07
打好
0.07
较为
0.07
晒
0.07
iter
0.07
战略
0.07
Activations Density 0.005%