INDEX
Negative Logits
Nutrition
-0.07
نه
-0.07
Mal
-0.07
Chew
-0.07
observing
-0.07
Oro
-0.07
иров
-0.07
(G
-0.07
Male
-0.07
pig
-0.06
POSITIVE LOGITS
rm
0.07
大户
0.07
"""↵
0.07
自带
0.07
urg
0.07
まとめ
0.07
mục
0.06
)$/
0.06
课堂
0.06
`).
0.06
Activations Density 0.000%