INDEX
    Explanations

    Pronouns referring to people

    New Auto-Interp
    Negative Logits
     mówi
    -0.08
     mqtt
    -0.07
    	parse
    -0.07
    而且
    -0.07
    起源
    -0.07
    启发
    -0.07
    𬶏
    -0.06
    例子
    -0.06
     הלאומי
    -0.06
    从事
    -0.06
    POSITIVE LOGITS
    Black
    0.08
     {}",
    0.07
     HIM
    0.07
     Blanco
    0.07
    𝗕
    0.07
     playbook
    0.07
    IFEST
    0.07
     erst
    0.07
    _sin
    0.07
    עים
    0.07
    Act Density 0.235%

    No Known Activations