INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     laisse
    -0.07
     advantages
    -0.07
     مؤ
    -0.07
    astos
    -0.07
    -written
    -0.07
     چون
    -0.07
     allergic
    -0.06
    /ajax
    -0.06
    aise
    -0.06
     develops
    -0.06
    POSITIVE LOGITS
     nhân
    0.06
    crc
    0.06
     الول
    0.06
     Rt
    0.06
     VIN
    0.06
    .TRUE
    0.06
    hwnd
    0.06
    학년도
    0.06
    เฮ
    0.06
    throw
    0.06
    Act Density 0.003%

    No Known Activations