INDEX
    Explanations

    online forum/email language

    New Auto-Interp
    Negative Logits
    conference
    -0.07
    _perm
    -0.07
    -0.07
    חדשות
    -0.07
    מיכה
    -0.07
    斯基
    -0.07
    xfb
    -0.07
     dov
    -0.07
    ellery
    -0.07
    设定
    -0.07
    POSITIVE LOGITS
    人口
    0.07
     chợ
    0.07
    此人
    0.07
    ตนเอง
    0.06
    车辆
    0.06
     Mrs
    0.06
    损坏
    0.06
     whale
    0.06
    QUI
    0.06
    reve
    0.06
    Act Density 0.090%

    No Known Activations