INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     be
    1.35
    <0x80>
    1.22
    కు
    1.08
    ري
    1.07
     as
    1.03
    قة
    1.00
    лення
    0.93
     دي
    0.93
     يت
    0.93
    اري
    0.91
    POSITIVE LOGITS
    1.34
    :
    1.28
    י
    1.16
    一緒に
    1.15
    ה
    1.14
    おそらく
    1.09
    ב
    1.09
    ש
    1.09
    ac
    1.07
    1.06
    Act Density 0.193%

    No Known Activations