INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ote
    -0.08
    erse
    -0.07
    ित
    -0.07
     Panic
    -0.07
     Nazis
    -0.07
    итель
    -0.06
    ometric
    -0.06
    NAME
    -0.06
    =*
    -0.06
         	
    -0.06
    POSITIVE LOGITS
     refr
    0.11
    aptops
    0.07
    (""
    0.06
    是否
    0.06
     folklore
    0.06
    becca
    0.06
     قائمة
    0.06
     xsi
    0.06
    abras
    0.06
    ınıf
    0.06
    Act Density 0.001%

    No Known Activations