INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ן
    1.12
     nke
    0.96
    ها
    0.95
    ينه
    0.95
    هاي
    0.93
    人材
    0.93
    ıları
    0.92
     فونٹ
    0.89
    0.89
    ために
    0.88
    POSITIVE LOGITS
    </b>
    1.66
    -
    1.59
    1.51
    st
    1.36
     I
    1.34
    w
    1.29
    </i>
    1.27
    </h2>
    1.26
    </h3>
    1.23
    </sub>
    1.17
    Act Density 0.002%

    No Known Activations