INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    	C
    -0.06
    			               
    -0.06
    <hr
    -0.06
     للد
    -0.06
    	br
    -0.06
    _To
    -0.06
     aluno
    -0.06
    protected
    -0.06
     siè
    -0.06
     Glad
    -0.06
    POSITIVE LOGITS
    ibble
    0.07
     پایین
    0.07
    HY
    0.07
     انرژی
    0.07
    ظم
    0.07
    ypse
    0.06
    λία
    0.06
     болезни
    0.06
     weakness
    0.06
     Animalia
    0.06
    Act Density 0.006%

    No Known Activations