INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    |(↵
    -0.09
    Tray
    -0.08
     iodine
    -0.08
    vd
    -0.08
     Ban
    -0.08
    raz
    -0.08
    כך
    -0.07
    ान
    -0.07
     Bab
    -0.07
    irge
    -0.07
    POSITIVE LOGITS
    -ish
    0.08
    Dl
    0.08
     lc
    0.08
    سازی
    0.07
     Wayne
    0.07
    Bull
    0.07
    DJ
    0.07
    .Entity
    0.07
     lar
    0.07
     dum
    0.07
    Act Density 0.005%

    No Known Activations