INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    سلام
    -0.07
    asan
    -0.07
     Assurance
    -0.06
    ону
    -0.06
     نوش
    -0.06
    anoia
    -0.06
     ranks
    -0.06
     isp
    -0.06
     discourse
    -0.06
    -0.06
    POSITIVE LOGITS
    0.07
    0.07
    (Id
    0.07
    hh
    0.07
    ۲۶
    0.06
    .bp
    0.06
     &(
    0.06
    acağ
    0.06
    =[[
    0.06
            ↵↵
    0.06
    Act Density 0.003%

    No Known Activations