INDEX
Negative Logits
jud
-0.07
须
-0.07
侃
-0.07
Hung
-0.07
_POP
-0.07
葡萄
-0.07
枇
-0.07
expl
-0.07
typ
-0.07
耜
-0.06
POSITIVE LOGITS
Equality
0.07
胎儿
0.07
المتعل
0.07
helfen
0.07
arbe
0.07
האדם
0.07
etre
0.07
מחיר
0.07
ציל
0.07
shorter
0.06
Activations Density 0.004%