INDEX
    Explanations

    ever seen or done before

    New Auto-Interp
    Negative Logits
     đang
    0.51
    ון
    0.45
    l
    0.45
    ς
    0.44
    ף
    0.44
    0.44
    ional
    0.42
    仍然
    0.42
     دائما
    0.42
    s
    0.42
    POSITIVE LOGITS
     pernah
    0.79
    เคย
    0.77
    见过
    0.74
     sebelumnya
    0.72
     ooit
    0.70
    说过
    0.68
    看过
    0.68
     เคย
    0.67
     wcześniej
    0.63
     geweest
    0.63
    Act Density 0.073%

    No Known Activations