INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     місцев
    -0.07
     performer
    -0.07
    _lookup
    -0.07
     меж
    -0.06
     lut
    -0.06
     challenges
    -0.06
     validity
    -0.06
     visited
    -0.06
     기타
    -0.06
     Negative
    -0.06
    POSITIVE LOGITS
     انسانی
    0.07
    0.06
    的な
    0.06
     latex
    0.06
    .listeners
    0.06
    0.06
     coursework
    0.06
     تلفن
    0.06
    이었
    0.06
    \application
    0.06
    Act Density 0.011%

    No Known Activations