INDEX
    Explanations

    break down into categories

    New Auto-Interp
    Negative Logits
    M
    0.58
    H
    0.51
    V
    0.50
    J
    0.49
    G
    0.48
    <0x80>
    0.48
    K
    0.46
    W
    0.46
    </a>
    0.45
    P
    0.45
    POSITIVE LOGITS
    ва
    0.56
    0.52
     για
    0.50
     של
    0.48
     для
    0.48
     catégories
    0.46
     observables
    0.45
     of
    0.45
    0.44
    זור
    0.43
    Act Density 0.223%

    No Known Activations