INDEX
Negative Logits
equival
-0.07
115
-0.07
inde
-0.07
108
-0.07
116
-0.07
completing
-0.07
kon
-0.07
post
-0.07
markup
-0.07
through
-0.07
POSITIVE LOGITS
істі
0.09
맨
0.09
给主人
0.08
拍拍
0.08
테
0.08
öt
0.08
Who's
0.08
이에
0.08
알
0.08
/↵/
0.08
Activations Density 0.001%