INDEX
Negative Logits
law
-0.07
업체
-0.07
stal
-0.07
halde
-0.07
(wp
-0.07
rightarrow
-0.07
dict
-0.07
feminine
-0.07
Rs
-0.06
sep
-0.06
POSITIVE LOGITS
getAs
0.06
AVG
0.06
صفحه
0.06
减
0.06
Price
0.06
sagte
0.06
Feature
0.06
$',
0.06
Plug
0.05
tuned
0.05
Activations Density 0.034%