INDEX
Negative Logits
Trust
-0.07
perl
-0.07
weren
-0.07
vů
-0.07
vita
-0.06
_orders
-0.06
bliss
-0.06
sé
-0.06
eig
-0.06
ratios
-0.06
POSITIVE LOGITS
些
0.16
Затем
0.12
一些
0.12
这些
0.12
许多
0.09
затем
0.08
려고
0.08
那些
0.08
거나
0.07
件事
0.07
Activations Density 0.002%