INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     
    0.21
    )
    0.20
     [(
    0.19
     ("
    0.19
     newline
    0.18
     [
    0.18
    ))
    0.17
     ('
    0.17
     (=
    0.17
     mammals
    0.17
    POSITIVE LOGITS
    rog
    0.20
     sebagainya
    0.20
     przede
    0.19
     поэтому
    0.19
    <unused2015>
    0.19
    поте
    0.18
     thankfully
    0.17
     dlatego
    0.17
    ppure
    0.17
     म्हणूनच
    0.17
    Act Density 1.048%

    No Known Activations