INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     archival
    -0.07
    _IDLE
    -0.07
     amplification
    -0.07
    _PAR
    -0.07
    ATR
    -0.07
    ."'
    -0.07
     Archives
    -0.07
    _AM
    -0.07
    _AT
    -0.07
    _TR
    -0.07
    POSITIVE LOGITS
    ,但
    0.10
    ,但是
    0.10
     kodwa
    0.09
     默认
    0.08
    ,不过
    0.08
    ,很
    0.08
     nhưng
    0.08
    ,也
    0.08
    。但是
    0.08
     אבל
    0.08
    Act Density 0.008%

    No Known Activations