INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     یک
    -0.07
     southern
    -0.06
    aussian
    -0.06
     mejores
    -0.06
     parasites
    -0.05
     Containers
    -0.05
    	App
    -0.05
     Gaussian
    -0.05
     eta
    -0.05
     Standards
    -0.05
    POSITIVE LOGITS
    0.08
    /********
    0.08
    чил
    0.07
    丈夫
    0.07
     그녀
    0.07
     Wrest
    0.07
    -drive
    0.07
     gemacht
    0.07
    leşik
    0.07
     MHz
    0.07
    Act Density 0.018%

    No Known Activations