INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     merry
    -0.08
    yd
    -0.07
    Mary
    -0.07
    Zip
    -0.07
    Jamie
    -0.07
    ythe
    -0.07
    Gary
    -0.07
    aye
    -0.07
    York
    -0.07
    Mage
    -0.07
    POSITIVE LOGITS
     con
    0.15
     Con
    0.13
    con
    0.12
    -con
    0.12
    .Con
    0.12
     CON
    0.12
    Con
    0.11
    CON
    0.11
    AN
    0.11
    _con
    0.11
    Act Density 0.048%

    No Known Activations