INDEX
Negative Logits
時期
-0.93
を
-0.87
ซึ่ง
-0.87
Kategorien
-0.85
xxiii
-0.84
XXVII
-0.84
了承
-0.84
путь
-0.84
があり
-0.84
aucune
-0.83
POSITIVE LOGITS
menor
1.11
courtesy
1.00
наконец
0.94
ところに
0.93
のですか
0.93
reasons
0.91
virtue
0.91
riguarda
0.90
achieve
0.90
naturally
0.89
Activations Density 0.003%