INDEX
    Explanations

    specific types of things

    New Auto-Interp
    Negative Logits
    เพื่อให้
    0.56
     để
    0.51
     чтобы
    0.51
    เพื่อ
    0.50
     כדי
    0.49
     quando
    0.48
     чтоб
    0.48
     เพื่อ
    0.47
    ເພື່ອ
    0.47
     ताकि
    0.46
    POSITIVE LOGITS
     различными
    0.41
     BOOL
    0.40
     разными
    0.39
     различных
    0.37
    但这
    0.36
    ખ્ય
    0.36
    ld
    0.36
    Bool
    0.35
     المختلفة
    0.35
    0.35
    Act Density 0.013%

    No Known Activations