INDEX
    Explanations

    words starting with "un" or "im"

    New Auto-Interp
    Negative Logits
     algun
    -0.08
     يكون
    -0.08
     لدي
    -0.07
     بك
    -0.07
     tendrá
    -0.07
     كانت
    -0.07
    مهند
    -0.07
     تكون
    -0.07
    <Tag
    -0.07
    modele
    -0.07
    POSITIVE LOGITS
    0.08
    的身份
    0.07
    زوار
    0.07
    WR
    0.07
    0.07
    0.07
     empowerment
    0.07
    𝒗
    0.07
    ==============
    0.07
    𝚑
    0.07
    Act Density 0.004%

    No Known Activations