INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    <TResult
    -0.07
    دار
    -0.06
    MISS
    -0.06
    .utils
    -0.06
    กรม
    -0.06
    (conn
    -0.06
    ρωση
    -0.06
     ف
    -0.06
    confirm
    -0.06
    ับร
    -0.06
    POSITIVE LOGITS
    :+
    0.07
    pad
    0.07
    	glm
    0.07
     limp
    0.06
     Ember
    0.06
    ...
    ↵
    0.06
    …↵↵↵
    0.06
    Esta
    0.06
     вместе
    0.06
     Mehr
    0.06
    Act Density 0.022%

    No Known Activations