INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     prostu
    0.90
    ලේ
    0.83
     معمولی
    0.77
    ("|"+"
    0.76
     joué
    0.72
     doesnt
    0.72
     desplazamiento
    0.72
    |=|
    0.71
     conocemos
    0.71
     хуже
    0.70
    POSITIVE LOGITS
     чтобы
    2.78
    เพื่อ
    2.68
     เพื่อ
    2.57
    เพื่อให้
    2.56
     כדי
    2.54
     щоб
    2.48
     để
    2.43
     afin
    2.37
     تاکہ
    2.37
     nhằm
    2.34
    Act Density 0.100%

    No Known Activations