INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    作用
    -0.09
    ierungs
    -0.08
    首先
    -0.07
    -0.07
    -0.07
     اک
    -0.07
    优势
    -0.07
     demeanor
    -0.07
    -0.07
     بک
    -0.07
    POSITIVE LOGITS
     worries
    0.09
     wasting
    0.09
     أيام
    0.09
     كون
    0.09
     преж
    0.09
     wasted
    0.09
     التقلي
    0.09
     হত
    0.09
     auparavant
    0.08
    गा
    0.08
    Act Density 0.028%

    No Known Activations