INDEX
Negative Logits
è·Ŀ离
-0.27
PO
-0.26
ppo
-0.26
orn
-0.26
tob
-0.25
sat
-0.25
esModule
-0.24
oping
-0.24
yield
-0.24
explain
-0.24
POSITIVE LOGITS
uner
0.31
åĽłä¸ºæĪij们
0.29
æłĭ
0.29
__________________↵↵
0.26
çĭ¬è§Ĵåħ½
0.25
-au
0.25
äºļæ´²
0.25
dag
0.25
frican
0.25
客家
0.25
Activations Density 1.441%