INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    以习近平
    -0.08
     Toshiba
    -0.08
    /mit
    -0.07
     lieutenant
    -0.07
    屋子
    -0.07
     טיפול
    -0.07
     torch
    -0.07
     MyBase
    -0.07
     نحو
    -0.07
    电视机
    -0.07
    POSITIVE LOGITS
    inate
    0.08
    igmatic
    0.07
    UserData
    0.07
    代言
    0.07
     customization
    0.07
    _unit
    0.07
     repression
    0.07
    内在
    0.06
    AN
    0.06
    0.06
    Act Density 0.008%

    No Known Activations