INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ре
    1.26
    ри
    1.20
    slope
    1.12
    ни
    1.10
    <0x0D>
    1.08
    রূপে
    1.05
    1.05
    ли
    1.04
    ро
    1.02
    ன்
    1.01
    POSITIVE LOGITS
    מ
    1.32
    ↵↵
    1.20
    其他
    1.16
    1.04
    .
    1.02
    ۔
    1.02
    1.01
    0.96
    ت
    0.96
    0.95
    Act Density 0.225%

    No Known Activations