INDEX
    Explanations

    hyphen-like characters

    New Auto-Interp
    Negative Logits
    TX
    -0.09
    	        
    -0.08
    substring
    -0.08
    	link
    -0.08
     roar
    -0.08
     характериз
    -0.08
    bounding
    -0.08
    Christian
    -0.08
    doch
    -0.08
     получилось
    -0.08
    POSITIVE LOGITS
    步骤
    0.16
     steps
    0.15
     step
    0.15
     कदम
    0.14
    -step
    0.14
     خطوة
    0.13
    一步
    0.13
     خطوات
    0.13
     étapes
    0.13
     Schritte
    0.12
    Act Density 0.019%

    No Known Activations