INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     rt
    -0.07
    ent
    -0.07
     mat
    -0.07
     rent
    -0.07
    ёт
    -0.06
    Rent
    -0.06
    σκ
    -0.06
    Ot
    -0.06
     Arg
    -0.06
    _optional
    -0.06
    POSITIVE LOGITS
    ph
    0.09
     Eph
    0.07
    alph
    0.07
    /ph
    0.07
    PH
    0.07
     KH
    0.07
    іїв
    0.07
    aph
    0.07
    ...</
    0.06
     homme
    0.06
    Act Density 0.052%

    No Known Activations