INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Fair
    -0.07
     typing
    -0.07
     Bar
    -0.07
     اله
    -0.07
     German
    -0.07
    car
    -0.07
     thereof
    -0.06
     illegal
    -0.06
    CancelButton
    -0.06
    ocache
    -0.06
    POSITIVE LOGITS
    0.08
    intelligence
    0.07
    我们必须
    0.07
    敏锐
    0.07
    聲明
    0.07
    เพราะ
    0.07
    vv
    0.07
    ьев
    0.07
    のために
    0.07
    eatures
    0.07
    Act Density 0.001%

    No Known Activations