INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ung
    1.44
    uk
    1.15
     (
    1.14
     in
    1.12
    un
    1.08
    iv
    1.05
    š
    1.05
    ER
    1.05
    da
    1.05
    v
    1.04
    POSITIVE LOGITS
    1.51
    ри
    1.48
    ーン
    1.44
    1.41
    те
    1.34
    ת
    1.34
    ет
    1.33
    1.32
    1.27
    тів
    1.24
    Act Density 0.003%

    No Known Activations