INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ولي
    -0.07
    不同
    -0.07
    _wrong
    -0.07
    arsi
    -0.07
     وفي
    -0.07
    <h
    -0.06
    ropical
    -0.06
    之情
    -0.06
    -0.06
     itch
    -0.06
    POSITIVE LOGITS
     Provincial
    0.07
    重型
    0.07
    ,\"
    0.07
    交往
    0.07
    总量
    0.07
    >T
    0.07
    升学
    0.07
     stranded
    0.07
    排放
    0.07
    published
    0.07
    Act Density 0.004%

    No Known Activations