INDEX
    Explanations

    write a specific output

    New Auto-Interp
    Negative Logits
    yourself
    0.50
    your
    0.49
     вашем
    0.48
    ujete
    0.46
     yourselves
    0.45
     yourself
    0.45
    あなたの
    0.43
    يدك
    0.43
    你的
    0.42
     ваш
    0.41
    POSITIVE LOGITS
     me
    0.61
     мне
    0.59
     us
    0.52
     meille
    0.51
     nám
    0.47
     нам
    0.47
     нами
    0.44
     нас
    0.44
     ہمیں
    0.43
     μου
    0.42
    Act Density 0.001%

    No Known Activations