INDEX
Negative Logits
\%$
0.52
hran
0.51
或者
0.50
ev
0.49
hdad
0.48
gage
0.46
apu
0.46
otor
0.45
fu
0.45
mentors
0.45
POSITIVE LOGITS
ới
0.49
Wszyst
0.48
Caught
0.46
รี
0.46
Ś
0.44
อน
0.44
עם
0.43
กับ
0.43
一個
0.43
園
0.43
Activations Density 0.001%
\%$
hran
或者
ev
hdad
gage
apu
otor
fu
mentors
ới
Wszyst
Caught
รี
Ś
อน
עם
กับ
一個
園