INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     semplic
    -0.08
    nothing
    -0.08
     nothing
    -0.08
     Straight
    -0.08
    obyl
    -0.08
     właśnie
    -0.07
     nope
    -0.07
    Straight
    -0.07
    ISTER
    -0.07
    ுச்
    -0.07
    POSITIVE LOGITS
    0.08
    /ou
    0.07
    /gallery
    0.07
     foll
    0.07
     riche
    0.07
    там
    0.07
    .swing
    0.07
    .sf
    0.07
    /or
    0.07
    elingen
    0.07
    Act Density 0.003%

    No Known Activations