INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    بش
    -0.08
    预见
    -0.07
     sec
    -0.06
    -0.06
    โด
    -0.06
    -0.06
    -0.06
    ܦ
    -0.06
    -0.06
    POSITIVE LOGITS
     Gallery
    0.08
    Degrees
    0.07
     neutrality
    0.07
     Showing
    0.07
    WordPress
    0.07
     Hank
    0.07
    ariance
    0.07
    得很好
    0.07
    arse
    0.07
    cars
    0.07
    Act Density 0.001%

    No Known Activations