INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    IGNORE
    -0.08
    coop
    -0.07
     xấu
    -0.07
     Dawson
    -0.07
     знову
    -0.07
    LF
    -0.07
    -0.07
     quanh
    -0.07
    _SAMPLES
    -0.07
     розвитку
    -0.07
    POSITIVE LOGITS
    091
    0.07
     Forgotten
    0.06
    utable
    0.06
    Tables
    0.06
    095
    0.06
    ute
    0.06
    Result
    0.06
    rolls
    0.06
     Ultra
    0.06
    :";↵
    0.06
    Act Density 0.002%

    No Known Activations