INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     listener
    -0.09
    _listener
    -0.08
    listeners
    -0.08
     señalar
    -0.08
     مما
    -0.08
     reagieren
    -0.08
     verwand
    -0.08
    listener
    -0.07
    Listener
    -0.07
    EK
    -0.07
    POSITIVE LOGITS
     leftover
    0.10
     després
    0.08
    0.08
    Incl
    0.08
     incl
    0.08
     pärast
    0.08
    Venda
    0.08
    Après
    0.08
    Remaining
    0.08
     residual
    0.08
    Act Density 0.024%

    No Known Activations