INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    к
    0.84
    ш
    0.84
    л
    0.77
     frü
    0.77
    це
    0.74
    حي
    0.73
    يا
    0.73
    ками
    0.73
    тем
    0.70
    кнове
    0.69
    POSITIVE LOGITS
    ad
    1.13
    1.10
    ید
    1.06
    ने
    1.01
    (
    0.99
    ar
    0.96
    de
    0.96
    ang
    0.95
    id
    0.93
    ام
    0.92
    Act Density 0.000%

    No Known Activations