INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    .bel
    -0.07
    Le
    -0.07
    URRE
    -0.07
    ittel
    -0.07
    buah
    -0.07
    _leader
    -0.07
     attent
    -0.07
     гот
    -0.07
     Lahore
    -0.07
     Hew
    -0.07
    POSITIVE LOGITS
     sync
    0.11
    sync
    0.10
    .sync
    0.10
     Sync
    0.10
    Sync
    0.09
     syncing
    0.08
     synced
    0.08
    -sync
    0.07
    ync
    0.07
    working
    0.07
    Act Density 0.003%

    No Known Activations