INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     مرح
    -0.09
    ত্ত
    -0.08
    fortun
    -0.07
     قدم
    -0.07
     urs
    -0.07
    tion
    -0.07
     নব
    -0.07
     virksom
    -0.07
     Holm
    -0.07
    _perm
    -0.07
    POSITIVE LOGITS
    lett
    0.09
    ikka
    0.08
     betray
    0.08
     circuitry
    0.08
     fiery
    0.08
     Grü
    0.08
     Bernard
    0.08
    linien
    0.08
    0.07
    кл
    0.07
    Act Density 0.003%

    No Known Activations