INDEX
    Explanations

    repetition and emphasis

    New Auto-Interp
    Negative Logits
    R
    0.41
    4
    0.41
    MING
    0.40
    ाइंड
    0.39
     battled
    0.38
     виру
    0.38
     одну
    0.38
    IKV
    0.38
     Déf
    0.37
    /
    0.37
    POSITIVE LOGITS
    ....
    0.51
     nagyon
    0.50
     veldig
    0.49
     রকমের
    0.49
    .....
    0.47
     因為
    0.47
     .....
    0.45
    ............
    0.45
     helemaal
    0.45
    ങ്ങനെ
    0.45
    Act Density 0.038%

    No Known Activations