INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     shel
    -0.08
     Mull
    -0.08
    ö
    -0.07
    Ro
    -0.07
     Ro
    -0.07
     DASH
    -0.07
     Rye
    -0.07
     progressive
    -0.07
     Romance
    -0.07
     dog
    -0.07
    POSITIVE LOGITS
     للا
    0.09
     لأي
    0.08
     لتحقيق
    0.08
     विन
    0.08
     увидеть
    0.08
    なら
    0.08
     للت
    0.08
     بالنسبة
    0.08
     Ordin
    0.08
     للاست
    0.07
    Act Density 0.011%

    No Known Activations