INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     patience
    -0.08
     counters
    -0.07
    ежать
    -0.07
     blackColor
    -0.07
    	A
    -0.06
     LN
    -0.06
    .Bold
    -0.06
     آخر
    -0.06
     mr
    -0.06
    ETwitter
    -0.06
    POSITIVE LOGITS
    시아
    0.07
    CSI
    0.07
    0.07
    avity
    0.06
     perme
    0.06
    <?
    0.06
    /class
    0.06
    Tele
    0.06
    819
    0.06
    918
    0.06
    Act Density 0.088%

    No Known Activations