INDEX
Negative Logits
延
-0.09
soup
-0.08
суш
-0.08
Soup
-0.08
Zeug
-0.08
延
-0.07
जमा
-0.07
汇
-0.07
entries
-0.07
assemble
-0.07
POSITIVE LOGITS
Denied
0.09
apprendre
0.09
_calc
0.09
formulas
0.08
противопоказ
0.08
Een
0.08
volte
0.08
doctr
0.08
പഠ
0.08
steering
0.08
Activations Density 0.002%