INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    a
    1.48
    ların
    1.20
    یل
    1.17
    t
    1.09
    ה
    1.08
    ید
    0.99
    g
    0.99
    laying
    0.98
    ری
    0.97
     साल
    0.97
    POSITIVE LOGITS
    '
    1.66
    O
    1.56
     of
    1.23
    ות
    1.16
    كه
    1.08
    ant
    1.05
    Y
    1.04
    كي
    1.01
     Frankreich
    0.99
    اريخ
    0.98
    Act Density 0.000%

    No Known Activations