INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     نور
    -0.07
    874
    -0.07
     UF
    -0.07
     restoration
    -0.07
     gol
    -0.07
    ifie
    -0.06
    _CA
    -0.06
     kuk
    -0.06
     UNC
    -0.06
     pest
    -0.06
    POSITIVE LOGITS
     initial
    0.07
    (bl
    0.06
    0.06
    0.06
    0.06
    -Петерб
    0.06
     تصمیم
    0.06
     وابسته
    0.05
    ै।
    0.05
    _Selection
    0.05
    Act Density 0.020%

    No Known Activations