INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    </h3>
    1.31
    </i>
    1.23
     
    1.20
    </b>
    1.17
    </h2>
    1.16
    <0x0D>
    1.16
    </h5>
    1.15
    </em>
    1.12
    1.07
    </span>
    1.05
    POSITIVE LOGITS
    اً
    1.14
    1.14
    ه‌های
    1.06
    ح
    1.04
    inę
    1.00
    0.99
    ه‌ی
    0.98
    in
    0.97
    에요
    0.96
    𝚍
    0.95
    Act Density 0.078%

    No Known Activations