INDEX
Negative Logits
shout
-0.06
^[
-0.06
did
-0.06
uf
-0.06
感恩
-0.06
روا
-0.06
Table
-0.06
Sales
-0.06
Fre
-0.06
_fx
-0.06
POSITIVE LOGITS
kısa
0.09
Thailand
0.08
却不
0.08
possui
0.08
格會
0.08
Universität
0.07
憔
0.07
rationale
0.07
Петер
0.07
Hague
0.07
Activations Density 0.080%