INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    0.85
    0.85
    0.85
     relacion
    0.81
    0.80
    ników
    0.76
    Κα
    0.76
    Чер
    0.76
    Ком
    0.75
     تلیفون
    0.75
    POSITIVE LOGITS
    ط
    1.12
    ס
    1.09
    ص
    1.03
    ت
    1.01
    m
    0.92
    ج
    0.90
    oo
    0.88
    0.88
    n
    0.88
    ir
    0.85
    Act Density 0.002%

    No Known Activations