INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ندية
    -0.07
     offend
    -0.07
     Streets
    -0.07
     afr
    -0.06
    -connect
    -0.06
    电话
    -0.06
    evice
    -0.06
    @\
    -0.06
    fault
    -0.06
    .Home
    -0.06
    POSITIVE LOGITS
     자신
    0.06
    Entropy
    0.06
     آم
    0.06
    =pk
    0.06
     خرد
    0.06
    0.06
     Cambridge
    0.06
    Основ
    0.05
     гиб
    0.05
     UN
    0.05
    Act Density 0.051%

    No Known Activations