INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Tib
    -0.08
    太后
    -0.07
     cor
    -0.07
    -0.07
    血压
    -0.07
     ter
    -0.07
     distinct
    -0.07
    cb
    -0.07
     Sel
    -0.07
    -0.07
    POSITIVE LOGITS
    0.07
    	hit
    0.07
    מין
    0.07
     находится
    0.07
     DAMAGE
    0.07
     appetite
    0.07
    .offer
    0.07
     имеет
    0.07
    0.06
    UnitTest
    0.06
    Act Density 0.000%

    No Known Activations