INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    \
    1.27
    ри
    1.05
    ן
    1.02
    ческие
    0.90
    ના
    0.88
    2
    0.86
    ה
    0.86
    ים
    0.86
    ))
    0.85
    ۲
    0.84
    POSITIVE LOGITS
    n
    1.30
    r
    1.28
    0.98
    ن
    0.98
    ik
    0.92
    其他
    0.91
    ب
    0.89
    m
    0.88
    g
    0.86
    ر
    0.81
    Act Density 0.000%

    No Known Activations