INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    (components
    -0.07
     знач
    -0.07
     Timing
    -0.07
    (tex
    -0.07
    -0.07
     ejected
    -0.06
    -0.06
    <num
    -0.06
     nastę
    -0.06
     המקורי
    -0.06
    POSITIVE LOGITS
    .extensions
    0.07
    ра
    0.07
    awner
    0.07
     Почему
    0.07
     saved
    0.07
    ير
    0.07
    0.07
    versation
    0.07
    不停
    0.07
    Saga
    0.07
    Act Density 0.002%

    No Known Activations