INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    大奖
    -0.09
     deste
    -0.09
    ړ
    -0.08
     encycl
    -0.08
     hous
    -0.08
     genannt
    -0.07
     खरी
    -0.07
    landır
    -0.07
     bezahlt
    -0.07
     kay
    -0.07
    POSITIVE LOGITS
    forth
    0.09
     Flor
    0.08
     أنك
    0.08
     أنهم
    0.08
     أنه
    0.08
     palp
    0.08
     Eg
    0.08
     poter
    0.07
     അവർ
    0.07
     bahwa
    0.07
    Act Density 0.065%

    No Known Activations