INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    provider
    -0.07
     module
    -0.07
     derecho
    -0.07
     bloc
    -0.06
    ocol
    -0.06
    outs
    -0.06
     blocked
    -0.06
     frontend
    -0.06
    Fixture
    -0.06
    translations
    -0.06
    POSITIVE LOGITS
    actics
    0.08
    _ARB
    0.07
    nish
    0.07
    пи
    0.07
     nomin
    0.07
    疑难
    0.07
    Movies
    0.07
    思维方式
    0.07
     disgu
    0.06
    עניינ
    0.06
    Act Density 0.031%

    No Known Activations