INDEX
    Explanations

    politics, economics, systems

    New Auto-Interp
    Negative Logits
     een
    0.89
     the
    0.88
     '
    0.87
     (
    0.86
     
    0.85
     a
    0.83
     isang
    0.75
     -
    0.72
     *
    0.72
     =
    0.71
    POSITIVE LOGITS
    1.40
    1.34
    以及
    1.32
    信息
    1.32
    可以
    1.32
    进行
    1.21
    1.19
    都是
    1.16
    1.16
    逐渐
    1.15
    Act Density 0.097%

    No Known Activations