INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     God
    -0.08
     HAND
    -0.07
     obey
    -0.07
     god
    -0.06
     Spider
    -0.06
     ted
    -0.06
    go
    -0.06
    we
    -0.06
    /_
    -0.06
    boot
    -0.06
    POSITIVE LOGITS
    ^{
    0.09
     ^{
    0.07
    _face
    0.07
    thic
    0.07
     является
    0.07
     hippoc
    0.06
     José
    0.06
    0.06
    364
    0.06
    URA
    0.06
    Act Density 0.008%

    No Known Activations