INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    r
    1.35
    تي
    1.19
    ۹
    1.15
    1.12
    in
    1.10
    ми
    1.09
    ol
    1.04
    l
    1.03
    imiz
    0.93
    там
    0.93
    POSITIVE LOGITS
    ك
    0.95
    kan
    0.84
     an
    0.80
    การ
    0.76
     ein
    0.74
    ع
    0.74
    情况
    0.73
    gad
    0.73
     způsob
    0.73
    0.71
    Act Density 0.002%

    No Known Activations