INDEX
    Explanations

    list items and punctuation

    New Auto-Interp
    Negative Logits
    ↵↵↵↵
    0.66
    ).</
    0.58
    );*/
    0.57
    ");*/
    0.56
    ).\\
    0.56
    0.55
    $.\\
    0.54
    ↵↵↵
    0.53
    ”).
    0.53
    .").
    0.52
    POSITIVE LOGITS
    0.44
    0.44
    ”、
    0.43
    」、
    0.41
    інки
    0.41
    0.38
    )、
    0.38
    ';...
    0.38
    0.37
    )・
    0.37
    Act Density 0.099%

    No Known Activations