INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
    ↵		
    ↵
    -0.07
    -0.07
    -0.07
    点缀
    -0.06
     Centre
    -0.06
     Sunder
    -0.06
     الشيخ
    -0.06
    être
    -0.06
     Cast
    -0.06
    POSITIVE LOGITS
     modification
    0.07
     اليمن
    0.07
    راج
    0.07
     jeopardy
    0.07
    0.07
    (role
    0.06
    ram
    0.06
    0.06
    0.06
    0.06
    Act Density 0.006%

    No Known Activations