INDEX
    Explanations

    periods followed by emphasis

    New Auto-Interp
    Negative Logits
    】【
    0.59
     사람
    0.59
    )・
    0.52
    ুয়ারি
    0.50
    یتے
    0.48
    ждению
    0.48
    」「
    0.48
    пример
    0.47
    বেদন
    0.46
    )、
    0.46
    POSITIVE LOGITS
    ↵↵
    1.42
    ↵↵↵↵
    1.37
    ↵↵↵
    1.21
    ↵↵↵↵↵
    1.14
    ↵↵↵↵↵↵
    1.06
    ↵↵↵↵↵↵↵
    0.93
    ↵↵↵↵↵↵↵↵
    0.81
    ↵↵↵↵↵↵↵↵↵↵↵↵↵↵↵
    0.80
    ↵↵↵↵↵↵↵↵↵
    0.78
    ↵↵↵↵↵↵↵↵↵↵
    0.77
    Act Density 0.189%

    No Known Activations