INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ומב
    -0.07
    言い
    -0.06
     Pf
    -0.06
    +$
    -0.06
     purch
    -0.06
    教學
    -0.06
    飙升
    -0.06
    .pyplot
    -0.06
     utilis
    -0.06
     מכן
    -0.06
    POSITIVE LOGITS
     bear
    0.07
    女方
    0.07
    imator
    0.07
     casting
    0.07
    	stop
    0.07
    throws
    0.07
     drain
    0.07
     binding
    0.07
     manager
    0.07
     foundation
    0.07
    Act Density 0.055%

    No Known Activations