INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ad
    0.53
    ik
    0.52
    ak
    0.51
    ag
    0.50
    u
    0.47
    0.44
    ک
    0.44
    ק
    0.42
    an
    0.41
    ir
    0.40
    POSITIVE LOGITS
    ينات
    0.29
    文学
    0.28
    知道
    0.27
    是最
    0.27
    خدام
    0.27
    ным
    0.26
    다면
    0.26
    자와
    0.26
    ного
    0.26
    論文
    0.26
    Act Density 0.006%

    No Known Activations