INDEX
    Explanations

    punctuation

    New Auto-Interp
    Negative Logits
    -0.08
     shah
    -0.08
    业内
    -0.08
     amplia
    -0.07
     isə
    -0.07
     Amir
    -0.07
     définir
    -0.07
     Shah
    -0.07
     Abu
    -0.07
     misc
    -0.07
    POSITIVE LOGITS
    Paragraph
    0.09
    anza
    0.07
    英文
    0.07
     第二
    0.07
     영어
    0.07
    0.07
    Feat
    0.07
    angaza
    0.07
    _co
    0.07
    Co
    0.07
    Act Density 0.262%

    No Known Activations