INDEX
    Explanations

    various word replacements

    New Auto-Interp
    Negative Logits
     Com
    0.24
    ,
    0.24
    0.24
    0.23
     J
    0.23
    0.23
     Lunch
    0.23
    L
    0.23
    s
    0.22
     *
    0.22
    POSITIVE LOGITS
     օ
    0.30
    ableness
    0.27
     افضل
    0.26
    <unused1933>
    0.26
     utilizes
    0.26
    ̀
    0.25
    <unused1921>
    0.25
     เว
    0.24
     hardships
    0.24
     utilizzando
    0.24
    Act Density 0.001%

    No Known Activations