INDEX
    Explanations

    but, contrast, exception

    New Auto-Interp
    Negative Logits
    2.17
    ك
    2.16
    1.97
    م
    1.94
    1.88
    IA
    1.87
    ан
    1.82
    ある
    1.80
    라면
    1.80
    お届け
    1.68
    POSITIVE LOGITS
     않으면
    2.19
    вые
    1.60
     তবুও
    1.60
     Ее
    1.55
     néanmoins
    1.52
    thole
    1.52
    inė
    1.51
    ternut
    1.49
     dennoch
    1.49
    $,
    1.48
    Act Density 0.322%

    No Known Activations