INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    AMB
    -0.08
    States
    -0.07
    atham
    -0.07
    тон
    -0.07
    בל
    -0.07
    wn
    -0.07
    Triangle
    -0.07
     urn
    -0.07
    _AMOUNT
    -0.07
     Maher
    -0.07
    POSITIVE LOGITS
    0.07
    سرط
    0.07
    0.07
     صغ
    0.07
    .Operation
    0.07
    	Mono
    0.06
     PHOTO
    0.06
    /errors
    0.06
    经开
    0.06
     rew
    0.06
    Act Density 0.004%

    No Known Activations