INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    dera
    -0.07
     Kom
    -0.07
     Kem
    -0.07
     McCoy
    -0.07
    quet
    -0.07
    -ROM
    -0.06
    Kir
    -0.06
     Kot
    -0.06
     Kut
    -0.06
    Kom
    -0.06
    POSITIVE LOGITS
    Al
    0.09
     AL
    0.09
     al
    0.09
    AL
    0.08
     Al
    0.07
    al
    0.07
     A
    0.07
     الف
    0.07
    _A
    0.07
    A
    0.07
    Act Density 0.047%

    No Known Activations