INDEX
Negative Logits
Which
-0.08
"Do
-0.08
/App
-0.07
disappointment
-0.07
وكان
-0.07
等着
-0.07
'),
-0.07
什么地方
-0.07
thank
-0.07
وضح
-0.07
POSITIVE LOGITS
Careers
0.08
fld
0.07
הר
0.07
tr
0.07
다
0.07
Tours
0.07
clazz
0.06
삥
0.06
profes
0.06
freely
0.06
Activations Density 0.002%