INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    zca
    -0.09
    cić
    -0.08
    theta
    -0.08
     skj
    -0.08
    arbeiten
    -0.08
     znam
    -0.08
     bli
    -0.07
    сим
    -0.07
    column
    -0.07
    ,.
    -0.07
    POSITIVE LOGITS
    0.16
    0.15
    0.15
    0.15
    用了
    0.14
    0.13
    0.13
    0.13
    0.13
    0.12
    Act Density 0.003%

    No Known Activations