INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     sou
    -0.08
     spikes
    -0.07
    -0.07
     trap
    -0.07
    回头看
    -0.07
    -0.06
     semua
    -0.06
    -0.06
     TP
    -0.06
     Fairfield
    -0.06
    POSITIVE LOGITS
    为民
    0.08
    把控
    0.07
    REMOTE
    0.07
    0.07
    bsite
    0.07
    正式
    0.07
    拟定
    0.07
    oric
    0.07
    恰当
    0.07
    ////////////////////////////////////////////////////////////////////////////
    0.07
    Act Density 0.010%

    No Known Activations