INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     penny
    -0.07
     tg
    -0.07
    أمر
    -0.07
     רב
    -0.07
    stantiate
    -0.07
     вопрос
    -0.07
     hair
    -0.07
     ден
    -0.07
     bằng
    -0.07
    Assoc
    -0.07
    POSITIVE LOGITS
    ***/↵
    0.08
    /********************************
    0.07
    xE
    0.07
     customization
    0.06
    _Config
    0.06
    也不错
    0.06
    SCII
    0.06
    辛辣
    0.06
    luet
    0.06
    ELEMENT
    0.06
    Act Density 0.025%

    No Known Activations