INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    Lister
    -0.08
     Wig
    -0.08
    INGS
    -0.08
    Rad
    -0.08
    бас
    -0.07
    ],
    ↵
    -0.07
    ACT
    -0.07
     Bis
    -0.07
     Wellness
    -0.07
    POSITIVE LOGITS
    ,而且
    0.11
    0.10
    /simple
    0.10
    akkelijk
    0.09
    /pr
    0.09
     ומה
    0.09
    。然而
    0.09
     straightforward
    0.09
     jednoduch
    0.09
     unkompl
    0.08
    Act Density 0.066%

    No Known Activations