INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .END
    -0.07
    Chef
    -0.06
    غن
    -0.06
     indicator
    -0.06
     Friends
    -0.06
    oma
    -0.06
    ادی
    -0.06
     EI
    -0.06
    Keeper
    -0.06
    Friends
    -0.06
    POSITIVE LOGITS
    ://"
    0.07
    [:,
    0.07
    -gradient
    0.07
     lors
    0.06
     &&↵
    0.06
     реж
    0.06
     растение
    0.06
     Gutenberg
    0.06
    0.06
     naked
    0.06
    Act Density 0.041%

    No Known Activations