INDEX
    Explanations

    declarative approach, way, or UI

    New Auto-Interp
    Negative Logits
    к
    2.04
    propri
    1.93
    1.84
    es
    1.83
    perm
    1.69
    ০০
    1.68
    что
    1.63
    ς
    1.61
     lege
    1.53
     prises
    1.52
    POSITIVE LOGITS
     zem
    2.02
     вот
    1.98
    erious
    1.90
    一个个
    1.89
     picket
    1.85
    一个小
    1.78
     lleg
    1.77
    1.75
     Ruta
    1.74
    م
    1.73
    Act Density 0.001%

    No Known Activations