INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     nicht
    0.26
    .}
    0.26
    ."))
    0.24
    .')
    0.24
    .).
    0.24
     nhưng
    0.22
    但不
    0.22
    .").
    0.22
     نہیں۔
    0.22
    م
    0.22
    POSITIVE LOGITS
    0.53
    ?
    0.46
    ?」
    0.45
    ?”,
    0.45
    ؟
    0.44
    ?),
    0.42
    ...?
    0.42
    …?
    0.42
    ?”
    0.42
    ?</
    0.41
    Act Density 0.643%

    No Known Activations