INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    دولة
    -0.08
    -0.07
     shouted
    -0.07
    Initializing
    -0.07
     mou
    -0.07
     Cir
    -0.06
     владель
    -0.06
    .sig
    -0.06
    حديث
    -0.06
    热血
    -0.06
    POSITIVE LOGITS
    0.08
    0.07
     התב
    0.07
    (Calendar
    0.07
    -$
    0.07
    PRESSION
    0.07
    -----↵
    0.07
     $$
    0.07
     Intermediate
    0.07
    									
    0.07
    Act Density 0.028%

    No Known Activations