INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    脾气
    -0.07
    che
    -0.07
     proof
    -0.07
    apl
    -0.07
    zi
    -0.07
    骑兵
    -0.07
    -0.07
     Pron
    -0.07
    线
    -0.06
     cor
    -0.06
    POSITIVE LOGITS
    دولة
    0.07
     וח
    0.07
    _AUD
    0.07
     האלה
    0.07
    0.07
     honored
    0.07
     מש
    0.07
    .bank
    0.07
     phút
    0.07
    cents
    0.07
    Act Density 0.004%

    No Known Activations