INDEX
Negative Logits
SPAN
-0.08
表达
-0.06
SCREEN
-0.06
praised
-0.06
صغر
-0.06
フラ
-0.06
JOR
-0.06
bih
-0.06
Kensington
-0.06
第二节
-0.06
POSITIVE LOGITS
狐狸
0.08
_party
0.07
诱惑
0.07
בידי
0.06
intuitive
0.06
elapsed
0.06
hoses
0.06
ဈ
0.06
usive
0.06
_er
0.06
Activations Density 0.014%