INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    reminder
    -0.07
     heart
    -0.06
     Ecology
    -0.06
     🙂↵↵
    -0.06
    ее
    -0.06
    ında
    -0.06
     menu
    -0.06
    -arm
    -0.06
    -console
    -0.06
    ')+
    -0.06
    POSITIVE LOGITS
    VIP
    0.07
     النو
    0.07
    pre
    0.07
    _PHP
    0.06
     slicing
    0.06
       
    0.06
    Pale
    0.06
     stát
    0.06
     İslam
    0.06
     مسئ
    0.06
    Act Density 0.025%

    No Known Activations