INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     certas
    -0.09
     Makers
    -0.08
    ้น
    -0.07
    notation
    -0.07
    -0.07
    END
    -0.07
    -0.07
     certa
    -0.07
     concede
    -0.07
     jij
    -0.07
    POSITIVE LOGITS
     vork
    0.08
     совершенно
    0.08
     okaz
    0.08
     kie
    0.08
    0.08
     kah
    0.08
    DAP
    0.07
     Städ
    0.07
     nok
    0.07
    Vu
    0.07
    Act Density 0.002%

    No Known Activations