INDEX
Negative Logits
Miles
-0.07
ߡ
-0.07
אושר
-0.07
鬧
-0.07
Daniel
-0.07
逃脱
-0.06
一道
-0.06
公告
-0.06
Only
-0.06
릎
-0.06
POSITIVE LOGITS
能不能
0.08
_LEN
0.07
どういう
0.07
0.07
WE
0.06
_lin
0.06
0.06
culpa
0.06
洢
0.06
tul
0.06
Activations Density 0.009%
Miles
ߡ
אושר
鬧
Daniel
逃脱
一道
公告
Only
릎
能不能
_LEN
どういう
WE
_lin
culpa
洢
tul