INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    —or
    -0.10
     هذه
    -0.09
     هذا
    -0.09
     these
    -0.09
    :animated
    -0.09
     זו
    -0.08
     בכ
    -0.08
     نحن
    -0.08
     لت
    -0.08
     فهذا
    -0.08
    POSITIVE LOGITS
     uses
    0.09
     Structure
    0.08
    uses
    0.07
    0.07
     Uses
    0.07
     Usage
    0.07
     étage
    0.07
     sử
    0.07
     Optional
    0.07
     mentioned
    0.07
    Act Density 0.008%

    No Known Activations