INDEX
    Explanations

    assigning into, to, onto

    New Auto-Interp
    Negative Logits
    0.53
    の場合は
    0.50
    Obj
    0.49
    されない
    0.49
    ociaż
    0.49
    แต่
    0.48
    എം
    0.48
    Mismatch
    0.48
    Puzzle
    0.47
    はもちろん
    0.46
    POSITIVE LOGITS
     into
    1.78
     onto
    1.48
     إلى
    1.39
    into
    1.27
     Into
    1.23
     kepada
    1.20
     to
    1.19
     vào
    1.09
     الى
    1.09
     naar
    1.06
    Act Density 0.032%

    No Known Activations