INDEX
Negative Logits
ଓ
-0.08
rocker
-0.07
_cn
-0.07
伾
-0.07
lobbyists
-0.07
outlined
-0.07
comedian
-0.07
roommate
-0.07
玱
-0.06
nhé
-0.06
POSITIVE LOGITS
buzz
0.07
등을
0.07
湿润
0.07
不了解
0.07
Pierre
0.06
不懂
0.06
')])↵
0.06
_second
0.06
找了
0.06
tim
0.06
Activations Density 0.029%