INDEX
    Explanations

    phrasal verbs and outcomes

    New Auto-Interp
    Negative Logits
     are
    0.21
     iterating
    0.20
     timestep
    0.20
    ):
    0.20
     were
    0.20
     هستند
    0.19
    0.19
     باستخدام
    0.19
    អំ
    0.18
     عندما
    0.18
    POSITIVE LOGITS
     us
    0.19
    了不少
    0.18
     собою
    0.18
     swój
    0.17
    自己的
    0.17
    il
    0.17
     dirinya
    0.17
    αρ
    0.16
    iddag
    0.16
    更多的
    0.15
    Act Density 0.652%

    No Known Activations