INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     titulo
    -0.08
     Pokemon
    -0.08
    🆃
    -0.07
    тин
    -0.07
     תפ
    -0.07
    💕
    -0.07
    вро
    -0.07
    /preferences
    -0.07
     Earl
    -0.07
     Panda
    -0.07
    POSITIVE LOGITS
    0.08
    	byte
    0.07
    .button
    0.07
    0.07
    :frame
    0.07
    	end
    0.07
     بعد
    0.07
     odby
    0.07
     rocket
    0.07
    即使
    0.07
    Act Density 0.004%

    No Known Activations