INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    比较好
    -0.07
     choice
    -0.07
    犯规
    -0.07
    Inform
    -0.07
    Pair
    -0.07
    ITUDE
    -0.07
     Executor
    -0.06
     Fashion
    -0.06
     costume
    -0.06
     whatsoever
    -0.06
    POSITIVE LOGITS
     manganese
    0.07
    奋战
    0.07
    psi
    0.07
     yanında
    0.07
    分别
    0.07
    _mb
    0.07
    噪音
    0.07
    抗击疫情
    0.07
    构建
    0.07
    PHA
    0.06
    Act Density 0.007%

    No Known Activations