INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     quen
    -0.08
    anu
    -0.08
    wh
    -0.07
     nas
    -0.07
    ae
    -0.07
     chic
    -0.07
     trunk
    -0.07
    -0.07
     bath
    -0.07
     bale
    -0.07
    POSITIVE LOGITS
     Prot
    0.08
    Prot
    0.08
     takeaway
    0.08
    Sett
    0.08
     beforehand
    0.08
    езда
    0.07
     strap
    0.07
    Ow
    0.07
     Byte
    0.07
    Preset
    0.07
    Act Density 0.008%

    No Known Activations