INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     jamais
    -0.07
    hiro
    -0.07
    スタ
    -0.06
     plunder
    -0.06
     hid
    -0.06
     roman
    -0.06
    нимать
    -0.06
     leur
    -0.06
     Richmond
    -0.06
     Andreas
    -0.06
    POSITIVE LOGITS
     simple
    0.09
    simple
    0.09
    .simple
    0.09
    Simple
    0.09
    _simple
    0.08
    _SIMPLE
    0.08
    _easy
    0.07
    .Simple
    0.07
    /simple
    0.07
    	Simple
    0.07
    Act Density 0.022%

    No Known Activations