INDEX
    Explanations

    block level

    New Auto-Interp
    Negative Logits
    -0.08
    -0.07
    -0.07
     necesita
    -0.07
    ндекс
    -0.07
     tent
    -0.07
     ngoại
    -0.07
    ività
    -0.07
     المجلس
    -0.07
     Ży
    -0.07
    POSITIVE LOGITS
     phil
    0.08
     PW
    0.08
    Dual
    0.07
     교수
    0.07
    films
    0.07
    .bl
    0.07
     sterile
    0.07
    iscrim
    0.07
     Он
    0.07
     filthy
    0.07
    Act Density 0.005%

    No Known Activations