INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     brides
    -0.08
     Gun
    -0.07
     آل
    -0.07
    جان
    -0.07
     معروف
    -0.06
     Git
    -0.06
     řid
    -0.06
    Ros
    -0.06
    rypted
    -0.06
    -0.06
    POSITIVE LOGITS
     vocab
    0.12
     vocabulary
    0.11
     Vocabulary
    0.11
    vocab
    0.08
     lexical
    0.08
    ocabulary
    0.08
     Termin
    0.08
    .vocab
    0.08
     lex
    0.08
    _vocab
    0.07
    Act Density 0.005%

    No Known Activations