INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Centros
    -0.08
     insulated
    -0.07
    (owner
    -0.07
     Kron
    -0.07
     progresses
    -0.07
    ستر
    -0.07
     крим
    -0.07
     прибор
    -0.07
    актор
    -0.07
    ptable
    -0.07
    POSITIVE LOGITS
    .#
    0.08
    ctomy
    0.08
    099
    0.08
    מה
    0.08
     Twin
    0.08
     auxili
    0.07
     кав
    0.07
     assertions
    0.07
     GAN
    0.07
    094
    0.07
    Act Density 0.001%

    No Known Activations