INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
     corridor
    -0.06
     الزر
    -0.06
     contrario
    -0.06
     Indo
    -0.06
     lis
    -0.06
    eken
    -0.06
    	column
    -0.06
     dys
    -0.06
    تباط
    -0.06
    POSITIVE LOGITS
     knull
    0.07
     شورای
    0.07
    odings
    0.07
     spontaneous
    0.07
    ��态
    0.06
     فيها
    0.06
     šť
    0.06
    řes
    0.06
    taboola
    0.06
    .launch
    0.06
    Act Density 0.083%

    No Known Activations