INDEX
Negative Logits
judgments
-0.08
posed
-0.07
也比较
-0.07
automated
-0.07
]},
-0.07
GAS
-0.07
bakım
-0.07
.cache
-0.07
muj
-0.07
fuera
-0.07
POSITIVE LOGITS
verb
0.08
знаю
0.07
spokesperson
0.06
槍
0.06
مصلحة
0.06
ליצור
0.06
regex
0.06
員
0.06
peux
0.06
להמשיך
0.06
Activations Density 0.005%