INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     легко
    -0.06
     flexible
    -0.06
    ыми
    -0.06
    heid
    -0.06
     chống
    -0.06
     dziew
    -0.06
    -0.06
     vagy
    -0.06
    _INTERNAL
    -0.06
     Làm
    -0.06
    POSITIVE LOGITS
    0.07
    period
    0.07
    lington
    0.07
    itar
    0.07
    0.07
     diffs
    0.06
     endured
    0.06
     expend
    0.06
    ested
    0.06
    .emit
    0.06
    Act Density 0.027%

    No Known Activations