INDEX
    Explanations

    symbols and punctuation marks in the text

    New Auto-Interp
    Negative Logits
    ')))
    -0.70
     giz
    -0.66
    }}}
    -0.66
    ")));
    
    -0.65
    '));
    
    -0.65
    '});
    -0.65
    }))
    -0.63
    ']))
    -0.62
     in
    -0.62
    ")))
    -0.60
    POSITIVE LOGITS
    1.55
     、
    1.39
    )、
    1.04
    ”、“
    1.03
     للمعارف
    0.97
    、【
    0.97
    、“
    0.95
    0.95
    、、
    0.93
    osť
    0.93
    Act Density 0.065%

    No Known Activations