INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
    🥮
    -0.07
    니다
    -0.07
     giết
    -0.06
    -0.06
     عبد
    -0.06
    ينة
    -0.06
    (gc
    -0.06
     villagers
    -0.06
    -0.06
    POSITIVE LOGITS
    Deg
    0.08
    0.08
    REQ
    0.07
    防火
    0.07
    global
    0.07
    -case
    0.07
     wolves
    0.07
    anal
    0.07
    cluster
    0.07
    Gas
    0.06
    Act Density 0.000%

    No Known Activations