INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    LEEP
    -0.08
    UPI
    -0.08
    amental
    -0.07
     maternity
    -0.07
    _macro
    -0.07
    istent
    -0.06
    ęż
    -0.06
     nuclear
    -0.06
     eliminating
    -0.06
     yield
    -0.06
    POSITIVE LOGITS
     свои
    0.10
     своего
    0.09
     сво
    0.09
     свої
    0.09
     свого
    0.08
     своей
    0.08
     своим
    0.07
     своє
    0.07
     свою
    0.07
     свой
    0.07
    Act Density 0.007%

    No Known Activations