INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     אותן
    -0.08
    eday
    -0.07
     Predicate
    -0.07
     convoy
    -0.07
    -REAL
    -0.07
     ATA
    -0.07
    👁
    -0.07
    טקסט
    -0.07
    addock
    -0.06
    forums
    -0.06
    POSITIVE LOGITS
    0.07
    writers
    0.07
     dominated
    0.07
    0.07
     durch
    0.07
    重生
    0.07
    津贴
    0.07
     emphasizes
    0.07
     אודות
    0.07
    especially
    0.07
    Act Density 0.001%

    No Known Activations