INDEX
    Explanations
    No Explanations Found
    New Auto-Interp
    Negative Logits
    نته
    -0.08
    -0.07
    -0.07
    -0.06
     monarch
    -0.06
    נק
    -0.06
    -function
    -0.06
     Per
    -0.06
    -0.06
    飞跃
    -0.06
    POSITIVE LOGITS
        
    ↵
    ↵
    0.08
            ↵        ↵        ↵
    0.07
    0.07
    0.07
    مشاهدة
    0.07
    APPLICATION
    0.07
            
    ↵
    ↵
    0.07
        ↵↵↵
    0.07
           ↵↵
    0.07
    0.07
    Act Density 0.009%

    No Known Activations