INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Ağust
    -0.07
    ={"/
    -0.07
    **:
    -0.07
    ,</
    -0.07
    .PRO
    -0.07
     />'
    -0.07
    .*;
    ↵
    ↵
    -0.06
    .Control
    -0.06
     Platt
    -0.06
    ://'
    -0.06
    POSITIVE LOGITS
    Dies
    0.08
    Cele
    0.08
     ещё
    0.07
    0.07
    0.07
    olley
    0.07
    食材
    0.07
    зад
    0.07
     ист
    0.07
    Ni
    0.07
    Act Density 0.061%

    No Known Activations