INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     формування
    -0.06
    als
    -0.06
    (aux
    -0.06
    iddi
    -0.06
     jejich
    -0.06
     EQUAL
    -0.06
     робити
    -0.06
     Fleet
    -0.06
    -thread
    -0.06
    ωσε
    -0.06
    POSITIVE LOGITS
    ="@
    0.10
     Barr
    0.07
     goose
    0.07
     carpet
    0.06
     Jew
    0.06
    >@
    0.06
    camera
    0.06
     神马收录
    0.06
     emphasizing
    0.06
     ξ
    0.06
    Act Density 0.001%

    No Known Activations