INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     immac
    -0.07
    -0.06
    Italy
    -0.06
    !!
    -0.06
     Italy
    -0.06
     Brazil
    -0.06
     جنوب
    -0.06
    memo
    -0.06
     livelihood
    -0.06
    ça
    -0.06
    POSITIVE LOGITS
    .expand
    0.07
     الأخ
    0.07
     Rac
    0.07
    Direccion
    0.06
    ional
    0.06
    PTY
    0.06
    ophilia
    0.06
    otional
    0.06
    _gradient
    0.06
    ประกาศ
    0.06
    Act Density 0.237%

    No Known Activations