INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ну
    1.12
    ви
    1.07
    ке
    1.02
    мі
    1.02
    від
    1.01
    0.99
     мира
    0.93
    ку
    0.93
    к
    0.93
    that
    0.91
    POSITIVE LOGITS
    y
    1.52
    k
    1.41
    al
    1.39
    IM
    1.38
    IP
    1.36
     waste
    1.32
    d
    1.26
     as
    1.25
    id
    1.23
    ak
    1.23
    Act Density 0.006%

    No Known Activations