INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ADMIN
    -0.07
    OK
    -0.07
    Technology
    -0.07
     fName
    -0.07
    .value
    -0.07
    -0.07
    kazał
    -0.07
    都不敢
    -0.06
    看电视
    -0.06
    elder
    -0.06
    POSITIVE LOGITS
     Advanced
    0.08
    0.08
    _w
    0.07
    也就是说
    0.07
    0.06
     discarded
    0.06
     dissert
    0.06
     Regression
    0.06
     образом
    0.06
    0.06
    Act Density 0.006%

    No Known Activations