INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    发明专利
    -0.08
    -0.07
    -0.07
     Bürger
    -0.07
    חליף
    -0.07
    -0.07
    端午
    -0.07
     Habitat
    -0.07
    .generic
    -0.07
     Become
    -0.06
    POSITIVE LOGITS
     ford
    0.07
     mpg
    0.07
    hes
    0.07
    实际
    0.07
    _sched
    0.07
    最少
    0.07
    0.07
     lowest
    0.07
    itung
    0.07
     Meng
    0.06
    Act Density 0.001%

    No Known Activations