INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    I
    1.74
    A
    1.09
     αυτή
    1.04
    ų
    1.00
    ने
    0.96
     affluent
    0.93
    ää
    0.92
    ığı
    0.86
    この
    0.86
    irk
    0.85
    POSITIVE LOGITS
    s
    1.52
    ط
    1.20
    1.14
    st
    1.09
    ن
    1.05
    ir
    0.99
    ان
    0.93
    นอก
    0.92
    m
    0.91
    اس
    0.91
    Act Density 0.000%

    No Known Activations