INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     but
    -0.07
     kum
    -0.07
     similar
    -0.07
     Луч
    -0.07
     retained
    -0.07
    ']].
    -0.06
     váž
    -0.06
     kicking
    -0.06
    уск
    -0.06
     lanz
    -0.06
    POSITIVE LOGITS
    :/
    0.08
    positive
    0.06
     gather
    0.06
    /
    0.06
     mimeType
    0.06
    :<
    0.06
     Wohn
    0.06
    neo
    0.06
    DH
    0.06
    rend
    0.06
    Act Density 0.021%

    No Known Activations