INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    為了
    0.46
    เพื่อให้
    0.45
     为了
    0.44
     כדי
    0.44
    为了
    0.43
     impacto
    0.43
    잖아요
    0.43
    Чтобы
    0.42
     bertujuan
    0.42
     اہمیت
    0.42
    POSITIVE LOGITS
     begins
    0.51
     three
    0.49
     four
    0.46
     starts
    0.45
     начать
    0.45
     пять
    0.44
     five
    0.44
     beginnt
    0.44
     具体
    0.44
     çeşitli
    0.43
    Act Density 0.035%

    No Known Activations