INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    větší
    -0.07
    لام
    -0.07
    _el
    -0.06
    adt
    -0.06
    ě
    -0.06
     redundant
    -0.06
     мень
    -0.06
     bean
    -0.06
     pla
    -0.06
     altar
    -0.06
    POSITIVE LOGITS
     shin
    0.07
    _,,
    0.06
     Hello
    0.06
    79
    0.06
    Translatef
    0.06
     cb
    0.06
     ENABLE
    0.06
    brates
    0.06
    _contrib
    0.06
     зак
    0.06
    Act Density 0.002%

    No Known Activations