INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    1.00
    یە
    0.82
     bien
    0.81
    ti
    0.79
    t
    0.78
     well
    0.77
    0.76
    POL
    0.74
    ности
    0.73
    ти
    0.71
    POSITIVE LOGITS
    ững
    0.81
     daarbij
    0.79
    ayanti
    0.77
    0.77
     যাওয়ার
    0.77
    டுவத
    0.75
    aying
    0.75
    0.75
    ádiz
    0.75
    トゥーン
    0.75
    Act Density 0.000%

    No Known Activations