INDEX
    Explanations

    phrases emphasizing exclusivity or limitation

    New Auto-Interp
    Negative Logits
     hatta
    -0.39
    impresa
    -0.36
     poussière
    -0.33
     suprême
    -0.33
     ennemi
    -0.33
     chegada
    -0.32
     épaules
    -0.32
     кре
    -0.32
     meneg
    -0.30
     genoux
    -0.30
    POSITIVE LOGITS
    だけ
    2.14
     だけ
    1.58
    1.49
    だけの
    1.42
    のみ
    1.36
     saja
    1.32
    だけで
    1.27
    だけが
    1.15
    だけです
    1.10
    だけは
    1.07
    Act Density 0.007%

    No Known Activations