INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     I
    1.00
    н
    0.91
    يا
    0.79
    0.75
    0.73
    5
    0.71
    其他
    0.65
    ي
    0.62
    يّ
    0.61
    3
    0.61
    POSITIVE LOGITS
     it
    0.92
    t
    0.90
    ou
    0.87
    it
    0.80
    ların
    0.80
    ьте
    0.79
    m
    0.78
    c
    0.77
    b
    0.73
    R
    0.70
    Act Density 0.129%

    No Known Activations