INDEX
Negative Logits
.::
-0.08
65
-0.07
Free
-0.07
066
-0.06
leting
-0.06
editar
-0.06
75
-0.06
starvation
-0.06
igrants
-0.06
Wizard
-0.06
POSITIVE LOGITS
[
0.16
[
0.13
[↵
0.10
[\
0.10
[_
0.10
[[
0.09
[B
0.09
[-
0.09
[…
0.09
_[
0.09
Activations Density 0.324%