INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
    -0.06
     każdym
    -0.06
    自学
    -0.06
    ARGER
    -0.06
     objects
    -0.06
     apart
    -0.06
    -0.06
    лав
    -0.06
     verb
    -0.06
    POSITIVE LOGITS
     inbox
    0.07
    0.07
    .simple
    0.07
    /↵↵
    0.07
    (z
    0.07
    襄阳
    0.07
     Kane
    0.06
     propagated
    0.06
    _FT
    0.06
    ״
    0.06
    Act Density 0.003%

    No Known Activations