INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Aid
    -0.07
    Ltd
    -0.07
     Pence
    -0.06
    erosis
    -0.06
    کنان
    -0.06
    Breaking
    -0.06
    .date
    -0.06
    cu
    -0.06
     Services
    -0.06
     jihadist
    -0.06
    POSITIVE LOGITS
    čí
    0.06
    nem
    0.06
    0.06
    dpi
    0.06
    ный
    0.06
    USED
    0.06
    ُم
    0.06
     morph
    0.06
    .blog
    0.06
     دریا
    0.06
    Act Density 0.003%

    No Known Activations