INDEX
Negative Logits
帮åĬ©ä¼ģä¸ļ
-0.30
çļĦéľĢæ±Ĥ
-0.27
çļĦ帮åĬ©
-0.26
ä¾Ľæ±Ĥ
-0.26
æŃ¢
-0.25
desires
-0.25
ä¾ĽéľĢ
-0.25
beliefs
-0.25
èĤĺ
-0.24
resisted
-0.24
POSITIVE LOGITS
allon
0.27
affer
0.26
sth
0.26
ancia
0.25
.arc
0.25
æīģ
0.24
æıIJåıĸ
0.24
etz
0.23
blick
0.23
ãģĵãģĿ
0.23
Activations Density 0.078%