INDEX
    Explanations

    finds tokens used for emphasis or section/heading formatting (markdown-style emphasis and similar formatting markers).

    New Auto-Interp
    Negative Logits
     altres
    0.26
     sommige
    0.22
     aşağıdaki
    0.21
     nedenle
    0.21
     سایر
    0.21
     dalších
    0.21
     whatnot
    0.21
     neler
    0.20
     bestimmte
    0.20
     etcétera
    0.20
    POSITIVE LOGITS
    これは
    0.43
     это
    0.40
     This
    0.39
    这是一个
    0.37
     これは
    0.37
    Это
    0.36
    This
    0.36
    这是
    0.36
     這個
    0.35
     Đây
    0.35
    Act Density 3.001%

    No Known Activations