INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ALLOW
    -0.08
    -0.07
    Fi
    -0.07
    EMPTY
    -0.07
     pena
    -0.07
    ethol
    -0.07
     glim
    -0.07
     empr
    -0.07
    في
    -0.07
    -0.07
    POSITIVE LOGITS
     dahulu
    0.09
    -version
    0.08
     takaisin
    0.08
     supaya
    0.08
     завтра
    0.08
     Чтобы
    0.08
     чтобы
    0.07
    0.07
    0.07
    来看
    0.07
    Act Density 0.015%

    No Known Activations