INDEX
Negative Logits
Fair
-0.07
typing
-0.07
Bar
-0.07
اله
-0.07
German
-0.07
car
-0.07
thereof
-0.06
illegal
-0.06
CancelButton
-0.06
ocache
-0.06
POSITIVE LOGITS
憑
0.08
intelligence
0.07
我们必须
0.07
敏锐
0.07
聲明
0.07
เพราะ
0.07
vv
0.07
ьев
0.07
のために
0.07
eatures
0.07
Activations Density 0.001%