INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .value
    -0.06
     совсем
    -0.06
    PropertyDescriptor
    -0.06
     атмос
    -0.06
     Cy
    -0.06
    	offset
    -0.06
     newcomers
    -0.06
     imagined
    -0.06
    ]
    -0.06
     monitored
    -0.06
    POSITIVE LOGITS
    0.07
     rebell
    0.07
    sled
    0.07
    γμα
    0.07
     invo
    0.06
    िकल
    0.06
     kvinde
    0.06
    seys
    0.06
    (passport
    0.06
     итог
    0.06
    Act Density 0.004%

    No Known Activations