INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    作为一种
    -0.07
    _pes
    -0.06
    -0.06
    он
    -0.06
    она
    -0.06
    Life
    -0.06
    (lines
    -0.06
    𝜙
    -0.06
    -0.06
    (big
    -0.06
    POSITIVE LOGITS
    公共服务
    0.08
    								
    0.07
     conventions
    0.07
     ************************
    0.06
    њ
    0.06
    coles
    0.06
    љ
    0.06
     invoke
    0.06
     latest
    0.06
     Com
    0.06
    Act Density 0.003%

    No Known Activations