INDEX
Negative Logits
Orig
-0.08
-0.08
Ho
-0.08
authored
-0.07
coil
-0.07
Ho
-0.07
warrant
-0.07
ass
-0.07
Vista
-0.07
GT
-0.07
POSITIVE LOGITS
_arg
0.08
damp
0.08
ytale
0.08
Wick
0.08
Edwin
0.08
transm
0.07
caller
0.07
तर
0.07
Carter
0.07
潮
0.07
Activations Density 0.012%