INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Enc
    -0.07
    Some
    -0.07
    mpeg
    -0.06
    productos
    -0.06
     угод
    -0.06
     sugar
    -0.06
    
    -0.06
     کن
    -0.06
    知道
    -0.06
    ровать
    -0.06
    POSITIVE LOGITS
    fail
    0.21
     fail
    0.20
     Fail
    0.18
    Fail
    0.17
    .fail
    0.13
    _fail
    0.12
    FAIL
    0.11
     FAIL
    0.11
    	fail
    0.11
    .Fail
    0.10
    Act Density 0.005%

    No Known Activations