INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    t
    1.73
    ק
    1.52
    ت
    1.45
    1.34
    ä
    1.25
    1.25
    И
    1.20
    i
    1.16
    ą
    1.15
    اک
    1.11
    POSITIVE LOGITS
    )。
    1.60
    ),
    1.38
    ;
    1.35
    )।
    1.31
    )',
    1.22
    "。
    1.22
    1.14
    ;?>
    1.13
    ى
    1.12
    ;')
    1.10
    Act Density 0.000%

    No Known Activations