INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    omone
    -0.08
     VEG
    -0.08
     giveaways
    -0.08
     расслед
    -0.07
    multiple
    -0.07
    Denn
    -0.07
     על
    -0.07
     Вес
    -0.07
    eken
    -0.07
    leng
    -0.07
    POSITIVE LOGITS
     Milk
    0.08
    _CONTAINER
    0.08
    _plain
    0.08
    0.07
     Nachricht
    0.07
     Apartment
    0.07
    0.07
     Affair
    0.07
    作文
    0.07
     intestine
    0.07
    Act Density 0.004%

    No Known Activations