INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     carn
    -0.08
    yl
    -0.08
    .state
    -0.08
     urgent
    -0.08
     Victoria
    -0.08
    urgent
    -0.08
    yle
    -0.07
     Auckland
    -0.07
     Coke
    -0.07
     warnings
    -0.07
    POSITIVE LOGITS
    来到
    0.09
    来看
    0.09
    起来
    0.08
     Meetings
    0.08
    0.08
    0.08
    0.08
    来的
    0.08
     samen
    0.08
    ,并
    0.07
    Act Density 0.011%

    No Known Activations