INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     اجرای
    -0.07
    三个
    -0.07
    英语
    -0.07
     gode
    -0.07
    १�
    -0.06
    .fa
    -0.06
     Democrat
    -0.06
    ۱۶
    -0.06
     düşman
    -0.06
    ↵↵↵↵↵↵↵↵↵↵
    -0.06
    POSITIVE LOGITS
     caused
    0.07
    .Zero
    0.07
     Cause
    0.07
    0.06
    0.06
     Tomb
    0.06
    DNS
    0.06
     Base
    0.06
    -t
    0.06
    ≡≡
    0.06
    Act Density 0.001%

    No Known Activations