INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    au
    1.03
    ec
    0.96
    ong
    0.94
    an
    0.93
    mo
    0.92
    il
    0.92
    hesis
    0.91
    ar
    0.91
    ist
    0.90
    ag
    0.90
    POSITIVE LOGITS
    t
    2.03
    1.95
    ت
    1.94
    𝑡
    1.83
    тів
    1.83
    T
    1.80
    𝙩
    1.77
    т
    1.76
    𝚃
    1.76
    Т
    1.75
    Act Density 0.000%

    No Known Activations