INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ق
    0.41
    ک
    0.38
    ہ
    0.36
    ພວກເຮົາ
    0.34
    un
    0.33
    id
    0.33
    0.32
    ین
    0.32
    ك
    0.31
    ip
    0.30
    POSITIVE LOGITS
     
    0.40
    ↵↵
    0.29
     is
    0.26
     {$
    0.25
    .
    0.23
    0.23
     signifies
    0.22
     &
    0.22
    .)
    0.22
     forme
    0.22
    Act Density 0.196%

    No Known Activations