INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    知名
    -0.08
     phenomenon
    -0.08
    (device
    -0.07
    _BOTTOM
    -0.07
     ambush
    -0.07
    -app
    -0.07
     Herm
    -0.06
    compression
    -0.06
    很可能
    -0.06
    .indent
    -0.06
    POSITIVE LOGITS
     Core
    0.07
    0.07
     הטבע
    0.06
    0.06
    bone
    0.06
    GROUP
    0.06
     Overse
    0.06
    0.06
    0.06
    散步
    0.06
    Act Density 0.041%

    No Known Activations