INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    fet
    -0.07
    Delta
    -0.07
    _movie
    -0.07
    _lines
    -0.06
     unh
    -0.06
    Check
    -0.06
    ونية
    -0.06
    Δ
    -0.06
    Ngh
    -0.06
    _vc
    -0.06
    POSITIVE LOGITS
    _RENDER
    0.06
     автомоб
    0.06
     доз
    0.06
     apply
    0.06
    rač
    0.06
     ArgumentException
    0.06
    ']==
    0.06
     softened
    0.06
     gauche
    0.06
    0.06
    Act Density 0.028%

    No Known Activations