INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    0.58
     در
    0.52
    ästä
    0.51
    ρα
    0.50
    ۳
    0.50
     في
    0.49
    رفة
    0.47
    0.47
    ۲
    0.47
    ្រី
    0.47
    POSITIVE LOGITS
    is
    1.00
    an
    0.75
    il
    0.70
    it
    0.64
     Applications
    0.64
    er
    0.63
    ar
    0.63
    on
    0.63
    ق
    0.62
    y
    0.61
    Act Density 0.145%

    No Known Activations