INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Gold
    -0.08
    cripts
    -0.07
    -0.07
    -0.07
    קבוצת
    -0.07
    	vertex
    -0.06
     Be
    -0.06
    BLACK
    -0.06
     AMC
    -0.06
     VIS
    -0.06
    POSITIVE LOGITS
    0.08
    🔖
    0.07
    -cigaret
    0.06
     fung
    0.06
    igation
    0.06
    \":{\"
    0.06
    '>↵↵
    0.06
    0.06
     '"'
    0.06
    𫍣
    0.06
    Act Density 0.005%

    No Known Activations