INDEX
    Explanations

    direct object

    New Auto-Interp
    Negative Logits
    .goto
    -0.07
    -0.07
    -0.07
    digital
    -0.06
    Ros
    -0.06
    Cro
    -0.06
     يوس
    -0.06
    ermen
    -0.06
    Bien
    -0.06
    😺
    -0.06
    POSITIVE LOGITS
     bathroom
    0.07
    施工单位
    0.07
    _entities
    0.07
    _add
    0.07
    hread
    0.06
    ization
    0.06
     Depends
    0.06
    结婚
    0.06
     pathetic
    0.06
    定居
    0.06
    Act Density 0.011%

    No Known Activations