INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     incurred
    -0.07
    -radio
    -0.07
    וצרים
    -0.07
     gilt
    -0.07
    _mgr
    -0.06
     causes
    -0.06
    -0.06
    rodu
    -0.06
    	use
    -0.06
    iteur
    -0.06
    POSITIVE LOGITS
    (av
    0.07
    0.07
    0.07
    𝑃
    0.07
     beating
    0.06
    女人
    0.06
     menstrual
    0.06
    “In
    0.06
    Nintendo
    0.06
    0.06
    Act Density 0.012%

    No Known Activations