INDEX
    Explanations

    standards and expectations

    New Auto-Interp
    Negative Logits
     your
    0.74
    你的
    0.64
    your
    0.63
     youre
    0.58
     yourself
    0.56
    sächlich
    0.55
     you
    0.54
    Your
    0.54
    0.54
    ме
    0.52
    POSITIVE LOGITS
    และ
    0.79
     و
    0.78
     और
    0.77
     ਅਤੇ
    0.77
     และ
    0.76
     και
    0.75
     এবং
    0.73
     आणि
    0.73
     અને
    0.71
     וכ
    0.71
    Act Density 0.000%

    No Known Activations