INDEX
Negative Logits
umbrella
-0.08
sweep
-0.08
wy
-0.07
sum
-0.07
wipe
-0.07
yp
-0.06
+"
-0.06
clearly
-0.06
overlay
-0.06
Imp
-0.06
POSITIVE LOGITS
")↵
0.17
");↵
0.15
')↵
0.15
');↵
0.13
")↵↵
0.12
");↵↵
0.12
')↵↵
0.11
"]↵
0.10
');↵↵
0.10
")↵
0.10
Activations Density 0.108%