INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Mitchell
    -0.08
    нич
    -0.08
    😼
    -0.08
     במס
    -0.07
    terr
    -0.07
    -0.07
    -0.07
     לז
    -0.07
    ثم
    -0.07
    goal
    -0.07
    POSITIVE LOGITS
    IENT
    0.07
     corrupt
    0.07
     IRepository
    0.07
     reproductive
    0.07
    preferred
    0.07
     livre
    0.06
    _create
    0.06
    $$$
    0.06
    _image
    0.06
    orient
    0.06
    Act Density 0.008%

    No Known Activations