INDEX
    Explanations

    positive adjectives

    New Auto-Interp
    Negative Logits
    arkan
    -0.08
    乒乓球
    -0.07
     sovereignty
    -0.07
    -0.06
    تصوير
    -0.06
     padding
    -0.06
     европей
    -0.06
    -0.06
     mainScreen
    -0.06
     Panama
    -0.06
    POSITIVE LOGITS
    0.07
     />↵
    0.07
    0.06
    这类
    0.06
    0.06
    Film
    0.06
    性和
    0.06
     Isl
    0.06
    …↵
    0.06
     חז
    0.06
    Act Density 0.024%

    No Known Activations