INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Duk
    -0.09
     Board
    -0.08
    _strip
    -0.08
     IOException
    -0.08
     Invitational
    -0.08
     oli
    -0.07
    utho
    -0.07
    ohner
    -0.07
    inat
    -0.07
     Pri
    -0.07
    POSITIVE LOGITS
     sext
    0.08
     quart
    0.08
     mis
    0.08
    ать
    0.08
    ANGE
    0.07
     Vas
    0.07
    .blank
    0.07
    0.07
    ещ
    0.07
     сут
    0.07
    Act Density 0.001%

    No Known Activations