INDEX
Negative Logits
ש
2.22
ти
2.14
er
2.11
я
2.03
意思是
1.96
ت
1.81
ce
1.72
ため
1.71
οποίος
1.69
jeva
1.68
POSITIVE LOGITS
愪
1.85
understatement
1.83
ferv
1.80
overestimate
1.78
joc
1.74
kneel
1.74
jeopard
1.71
chime
1.71
más
1.70
coercive
1.70
Activations Density 0.210%