INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    </h3>
    1.46
    </b>
    1.34
    </h1>
    1.29
    ↵↵
    1.22
    ia
    1.20
     It
    1.20
     in
    1.17
    1.14
    </i>
    1.14
     This
    1.13
    POSITIVE LOGITS
    کار
    1.55
    شی
    1.40
    انی
    1.39
    اسی
    1.35
    کر
    1.33
    که
    1.32
    یات
    1.32
    لک
    1.30
    ادی
    1.30
    کن
    1.28
    Act Density 0.000%

    No Known Activations