INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    O
    1.28
    ۰
    1.20
     I
    1.15
    ك
    1.09
    ка
    1.08
     L
    1.04
     P
    1.00
    もら
    0.98
    G
    0.98
     M
    0.96
    POSITIVE LOGITS
    ס
    1.51
    л
    1.23
    تي
    1.14
    1.11
    ל
    1.06
    ركة
    1.02
    1.02
    ب
    1.02
    ک
    0.98
    بك
    0.98
    Act Density 0.180%

    No Known Activations