INDEX
Negative Logits
Continuing
-0.08
hem
-0.08
ường
-0.07
Santa
-0.07
豳
-0.07
揆
-0.07
髀
-0.07
佽
-0.07
pop
-0.07
utron
-0.07
POSITIVE LOGITS
Changed
0.07
originals
0.07
frightened
0.07
يريد
0.07
رعاية
0.07
rovers
0.07
打压
0.07
אנחנו
0.07
guarantee
0.07
defeat
0.06
Activations Density 0.000%