INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    teen
    -0.09
    ayya
    -0.08
     unpopular
    -0.08
    -0.08
    -0.08
    -0.07
     réun
    -0.07
    intro
    -0.07
     benches
    -0.07
    .end
    -0.07
    POSITIVE LOGITS
     منظور
    0.08
     έναν
    0.08
    0.08
    ег
    0.07
    ‌ب
    0.07
     فرمای
    0.07
     اشاره
    0.07
    ortis
    0.07
    ğinde
    0.07
     когато
    0.07
    Act Density 0.009%

    No Known Activations