INDEX
    Explanations

    new, huge, typical, train, flip, better, states, most

    New Auto-Interp
    Negative Logits
    ור
    1.57
    ти
    1.52
    ס
    1.52
    ский
    1.39
    ist
    1.38
     tomto
    1.33
    1.31
    aya
    1.30
    1.30
    то
    1.29
    POSITIVE LOGITS
     racc
    1.41
     abr
    1.29
     appliquée
    1.27
    <unused2125>
    1.26
    1.24
    čio
    1.23
     associée
    1.23
    1.23
     progrès
    1.23
    宽度
    1.20
    Act Density 0.934%

    No Known Activations