INDEX
    Explanations

    fumes and vapors

    New Auto-Interp
    Negative Logits
    -0.07
    }${
    -0.06
     (${
    -0.06
    .xy
    -0.06
     harming
    -0.06
    @[
    -0.06
     jihad
    -0.06
    .lb
    -0.06
    orang
    -0.06
     menacing
    -0.06
    POSITIVE LOGITS
    .CON
    0.07
    _refs
    0.07
    дер
    0.06
    Decoder
    0.06
     maid
    0.06
    der
    0.06
    abort
    0.06
     rumours
    0.06
    str
    0.06
    0.06
    Act Density 0.004%

    No Known Activations