INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -mini
    -0.07
    chl
    -0.07
     surpassed
    -0.07
    ovenant
    -0.07
    שית
    -0.07
    -0.07
    סד
    -0.07
     provinces
    -0.07
    ETERS
    -0.07
    تعا
    -0.07
    POSITIVE LOGITS
     anything
    0.07
     FA
    0.07
     Material
    0.07
    _leg
    0.07
    .allowed
    0.07
    _EP
    0.07
    라고
    0.07
     Rat
    0.07
    有用
    0.06
     realise
    0.06
    Act Density 0.083%

    No Known Activations