INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    1.38
    .。
    1.36
    اي
    1.26
    。“
    1.23
    。"
    1.23
    。[
    1.23
    。”
    1.22
    1.17
     is
    1.09
    de
    1.08
    POSITIVE LOGITS
     Domain
    1.36
     domaine
    1.20
     domain
    1.19
    and
    1.14
    نی
    1.13
    1.10
    سی
    1.04
    یا
    1.02
     Domains
    1.00
    0.99
    Act Density 0.014%

    No Known Activations