INDEX
    Explanations

    'that' followed by specific entities

    New Auto-Interp
    Negative Logits
    o
    0.80
    c
    0.76
    ول
    0.73
    0.71
    I
    0.68
    ة
    0.67
    r
    0.64
    0.64
    كة
    0.64
     I
    0.64
    POSITIVE LOGITS
    一方で
    0.93
    然而
    0.83
    不仅
    0.81
    nimi
    0.80
    在这种
    0.79
    τές
    0.79
    že
    0.77
    并将
    0.77
    并在
    0.77
    并不是
    0.76
    Act Density 0.346%

    No Known Activations