INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    B
    0.50
     or
    0.49
     as
    0.47
    C
    0.46
    H
    0.46
    ك
    0.45
    N
    0.44
    шибка
    0.42
    A
    0.42
     to
    0.41
    POSITIVE LOGITS
    in
    0.73
    0.58
    u
    0.52
    0
    0.51
    inį
    0.43
    an
    0.38
    िन
    0.37
    inės
    0.36
    inę
    0.36
    ug
    0.35
    Act Density 0.389%

    No Known Activations