INDEX
Negative Logits
teas
-0.07
ensis
-0.07
산
-0.07
participants
-0.07
env
-0.07
urg
-0.07
losses
-0.06
_prog
-0.06
spam
-0.06
组织开展
-0.06
POSITIVE LOGITS
훤
0.09
_Menu
0.07
屃
0.07
阎
0.07
שיחה
0.07
咉
0.06
objected
0.06
rubbed
0.06
_Construct
0.06
儘
0.06
Activations Density 0.003%