INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    un
    0.84
    ع
    0.83
    0.83
    nach
    0.82
    0.82
    𝐚
    0.80
    0.80
    У
    0.79
    у
    0.79
    0.79
    POSITIVE LOGITS
    0.72
     rét
    0.65
     ederek
    0.64
     retard
    0.63
    pless
    0.62
     waardoor
    0.61
     स्त्रीलिंग
    0.61
     anges
    0.59
    áticas
    0.59
     hogs
    0.59
    Act Density 0.000%

    No Known Activations