INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     И
    -0.08
    ctl
    -0.07
    mw
    -0.07
    omy
    -0.07
     Nin
    -0.07
    person
    -0.07
    *np
    -0.07
    RCT
    -0.07
     straw
    -0.07
    .nom
    -0.07
    POSITIVE LOGITS
     afar
    0.10
    /to
    0.10
     scratch
    0.09
     طریق
    0.09
     dessen
    0.08
     Ed
    0.07
     ҷониби
    0.07
    (u
    0.07
    scratch
    0.07
    集合
    0.07
    Act Density 0.281%

    No Known Activations