INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ಬಹಳ
    0.14
     phenomena
    0.14
              
    0.13
    >
    0.13
    font
    0.13
               
    0.13
     hauptsächlich
    0.13
     ;
    0.13
    0.13
    0.12
    POSITIVE LOGITS
     it
    0.25
     them
    0.25
     an
    0.22
     a
    0.21
     isang
    0.21
     this
    0.21
     qualcosa
    0.20
     something
    0.20
     one
    0.20
     этот
    0.19
    Act Density 3.222%

    No Known Activations