INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     prop
    -0.07
    θ
    -0.07
    可行
    -0.07
     CONDITION
    -0.06
    高级
    -0.06
    cole
    -0.06
     prompts
    -0.06
     Pret
    -0.06
    .factor
    -0.06
     event
    -0.06
    POSITIVE LOGITS
     מצד
    0.07
    0.07
     legalized
    0.07
     />';↵
    0.07
    0.07
     einige
    0.07
     rabbits
    0.07
    0.07
    做事
    0.07
    Wię
    0.07
    Act Density 0.001%

    No Known Activations