INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     всё
    -0.08
    -0.07
    -0.07
     Posts
    -0.07
    -0.07
    十堰
    -0.07
    心得体会
    -0.07
    希望能够
    -0.06
     POINT
    -0.06
     erre
    -0.06
    POSITIVE LOGITS
     BB
    0.08
     איתו
    0.08
     alarmed
    0.08
     Nazi
    0.08
    bra
    0.07
    0.07
    amburger
    0.07
    azi
    0.07
    转基因
    0.07
    0.07
    Act Density 0.006%

    No Known Activations