INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    했는데
    0.47
    しましたが
    0.46
    していますが
    0.40
    相比
    0.40
    特点
    0.39
    きましたが
    0.39
     했는데
    0.38
     жизнь
    0.37
    しますが
    0.37
     जैसी
    0.37
    POSITIVE LOGITS
     donc
    1.01
     Jadi
    1.01
     quindi
    0.98
    所以
    0.91
     tehát
    0.91
     jadi
    0.89
     Therefore
    0.89
     siis
    0.88
    Jadi
    0.88
     dunque
    0.87
    Act Density 0.395%

    No Known Activations