INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Columns
    -0.06
     spirits
    -0.06
     dirty
    -0.06
     promptly
    -0.06
    -0.06
    -0.05
     Avenue
    -0.05
     crowded
    -0.05
     unless
    -0.05
    وتر
    -0.05
    POSITIVE LOGITS
    gb
    0.08
    _MB
    0.07
    MSC
    0.07
    ISR
    0.07
     dây
    0.07
    -sama
    0.07
     <>↵
    0.07
    _USART
    0.06
     geil
    0.06
    anner
    0.06
    Act Density 0.066%

    No Known Activations