INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     bare
    -0.07
     lineage
    -0.07
     skiing
    -0.06
    -0.06
     italiano
    -0.06
    /mark
    -0.06
     cul
    -0.06
     CONFIG
    -0.06
    leta
    -0.06
     tet
    -0.06
    POSITIVE LOGITS
     VA
    0.25
    VA
    0.16
    _va
    0.08
    va
    0.07
    UA
    0.07
     которое
    0.07
    LA
    0.06
    .va
    0.06
    _VAL
    0.06
    rans
    0.06
    Act Density 0.002%

    No Known Activations