INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Gluten
    -0.07
    -0.07
    ogh
    -0.07
    -0.07
     Amber
    -0.07
     alb
    -0.06
    	Return
    -0.06
    Porn
    -0.06
     Rh
    -0.06
    /as
    -0.06
    POSITIVE LOGITS
    Sent
    0.07
    0.07
     expos
    0.07
     ADDRESS
    0.07
     DO
    0.07
     settlers
    0.07
     הקרוב
    0.07
    0.07
    0.07
     roma
    0.06
    Act Density 0.011%

    No Known Activations