INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    ut
    1.64
    ت
    1.51
    it
    1.36
    ي
    1.33
    ED
    1.31
    uje
    1.30
    т
    1.23
    ن
    1.20
    ه
    1.17
    ir
    1.16
    POSITIVE LOGITS
    ای
    1.36
    ために
    1.27
    ない
    1.18
     y
    1.16
    ;
    1.16
    1.09
    .]
    1.08
    ני
    1.08
    ている
    1.07
    てください
    1.07
    Act Density 0.000%

    No Known Activations