INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _STRUCTURE
    -0.07
     ind
    -0.07
     Dan
    -0.07
     Obs
    -0.07
    оров
    -0.07
    jour
    -0.07
    РО
    -0.06
     Ind
    -0.06
     surpr
    -0.06
     sus
    -0.06
    POSITIVE LOGITS
     e
    0.07
    appa
    0.06
    apa
    0.06
     Heavenly
    0.06
    	back
    0.06
     좋아
    0.06
    父亲
    0.06
     kuzey
    0.06
     battled
    0.06
    chází
    0.06
    Act Density 0.002%

    No Known Activations