INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    Recipes
    -0.07
     deliberately
    -0.07
    عی
    -0.06
     Leopard
    -0.06
    Young
    -0.06
    Substring
    -0.06
    ังจาก
    -0.06
     Shuffle
    -0.06
    778
    -0.06
     ساز
    -0.06
    POSITIVE LOGITS
    racial
    0.06
    ём
    0.06
    τον
    0.06
    》(
    0.06
    iVar
    0.06
     ******************************************************************************/↵
    0.06
    tle
    0.06
    '=>$_
    0.06
    му
    0.06
    ../../
    0.05
    Act Density 0.028%

    No Known Activations