INDEX
    Explanations

    own, eigen, eigenvalues, properties

    New Auto-Interp
    Negative Logits
    تي
    1.57
    1.38
    يح
    1.37
    كان
    1.33
    )。
    1.29
     ذكر
    1.29
    ر
    1.27
    الإ
    1.26
     كتاب
    1.24
    كيف
    1.24
    POSITIVE LOGITS
     (
    1.29
    ओं
    1.24
    ills
    1.20
    5
    1.16
     the
    1.13
    ra
    1.02
    p
    1.02
    ired
    1.02
    ใน
    1.00
    ively
    1.00
    Act Density 0.015%

    No Known Activations