INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     homeland
    -0.08
    ustri
    -0.08
     disfrutar
    -0.08
     disfr
    -0.07
    µ
    -0.07
     µ
    -0.07
     Lect
    -0.07
     disfruta
    -0.07
    _owned
    -0.07
     desfr
    -0.07
    POSITIVE LOGITS
     Ballet
    0.08
     usaha
    0.08
    issants
    0.08
     wills
    0.08
    arefa
    0.08
    レット
    0.07
    	q
    0.07
     Naruto
    0.07
     ROT
    0.07
    .physics
    0.07
    Act Density 0.002%

    No Known Activations