INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ͺ
    -0.07
     истории
    -0.07
    床位
    -0.07
     Naz
    -0.07
    kea
    -0.07
    大陆
    -0.07
     tattoos
    -0.06
    מומחי
    -0.06
    /Error
    -0.06
    Newton
    -0.06
    POSITIVE LOGITS
    0.08
    ----------↵↵
    0.07
    0.07
     יורק
    0.07
    When
    0.07
    你还
    0.07
    中小
    0.07
     verdict
    0.07
    总而言
    0.07
    师事务
    0.07
    Act Density 0.057%

    No Known Activations