INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ۴
    0.70
    یاء
    0.68
    0.67
    0.61
    عنی
    0.61
     ک
    0.61
    IL
    0.59
     친구
    0.59
     영상을
    0.59
     dihad
    0.59
    POSITIVE LOGITS
     Article
    0.83
     articles
    0.81
     articoli
    0.81
     člán
    0.71
    artikel
    0.69
     Artikel
    0.68
     ARTICLE
    0.68
     artículos
    0.66
     Articles
    0.66
     article
    0.65
    Act Density 0.021%

    No Known Activations