INDEX
Negative Logits
Ipv
-0.08
-0.07
,那么
-0.07
begs
-0.07
б
-0.07
speaker
-0.07
affection
-0.07
。那么
-0.06
_ipv
-0.06
imensional
-0.06
POSITIVE LOGITS
"↵↵↵
0.10
>↵↵//
0.09
")↵↵↵
0.09
)↵↵//
0.08
Ket
0.08
Deel
0.08
zep
0.08
).↵↵↵
0.08
!↵↵↵↵
0.08
"↵↵//
0.08
Activations Density 0.320%