INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    نا
    0.31
    .
    0.29
    des
    0.29
    dav
    0.29
    dan
    0.28
    dana
    0.28
    ח
    0.28
    dem
    0.27
    ders
    0.26
    DAN
    0.26
    POSITIVE LOGITS
     be
    0.41
    ة
    0.37
    ва
    0.35
    ă
    0.35
     políticos
    0.35
     and
    0.35
    ą
    0.34
    เป็น
    0.34
    ב
    0.33
    кий
    0.32
    Act Density 0.294%

    No Known Activations