INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     провод
    -0.07
    991
    -0.06
    Animal
    -0.06
    673
    -0.06
     homeland
    -0.06
    -ret
    -0.06
    :['
    -0.06
    concat
    -0.06
     покры
    -0.05
    umberland
    -0.05
    POSITIVE LOGITS
     Press
    0.23
     press
    0.20
    Press
    0.15
     PRESS
    0.15
    _press
    0.10
    press
    0.10
     presses
    0.09
    出版社
    0.09
    .press
    0.09
    _PRESS
    0.08
    Act Density 0.009%

    No Known Activations