INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     [=
    -0.07
     marshal
    -0.07
    -0.07
     Bald
    -0.06
    🇷
    -0.06
     Ital
    -0.06
     paper
    -0.06
    -grid
    -0.06
    ריד
    -0.06
     Jeśli
    -0.06
    POSITIVE LOGITS
    חוויה
    0.08
     sustaining
    0.07
    queues
    0.07
    _down
    0.07
     SCI
    0.07
    structuring
    0.06
    0.06
    _POL
    0.06
    0.06
     Shop
    0.06
    Act Density 0.040%

    No Known Activations