INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    '
    0.20
    0.19
    itation
    0.17
    ising
    0.16
    ation
    0.16
    mrow
    0.15
     explosives
    0.15
    .
    0.15
     isotherms
    0.15
    rows
    0.15
    POSITIVE LOGITS
     be
    0.26
     быть
    0.22
     būti
    0.22
     transcend
    0.19
     być
    0.18
     modernize
    0.18
     γίνει
    0.18
     conceivably
    0.18
     být
    0.18
     reunite
    0.18
    Act Density 0.955%

    No Known Activations