INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     affine
    -0.06
     Memo
    -0.06
    -server
    -0.06
     dine
    -0.06
    _HOST
    -0.06
     prisoner
    -0.06
    (token
    -0.06
     το
    -0.06
     Σ
    -0.06
    _bits
    -0.06
    POSITIVE LOGITS
    -figure
    0.07
     учнів
    0.07
    itní
    0.06
     pacing
    0.06
    ickými
    0.06
    nesota
    0.06
     اتاق
    0.06
     lãi
    0.06
    'order
    0.06
     CONTEXT
    0.06
    Act Density 0.004%

    No Known Activations