INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     لتح
    -0.07
     diffuse
    -0.07
    מלי
    -0.07
    -0.07
    -0.07
    建立
    -0.07
    -0.07
     shortcut
    -0.07
     way
    -0.07
    ividad
    -0.07
    POSITIVE LOGITS
    amount
    0.07
     Books
    0.07
     assh
    0.07
     moms
    0.06
    -Men
    0.06
     Tops
    0.06
     Washington
    0.06
     arasındaki
    0.06
    Sch
    0.06
    Ĝ
    0.06
    Act Density 0.326%

    No Known Activations