INDEX
    Explanations

    these / indicating proximity

    New Auto-Interp
    Negative Logits
     +.
    0.70
     ().
    0.65
    .​​
    0.63
    ։
    0.63
    ².
    0.60
    ¹.
    0.59
    ycor
    0.59
    °.
    0.59
     wodurch
    0.58
    ‌.
    0.58
    POSITIVE LOGITS
     these
    1.01
     этих
    1.01
    这些
    0.95
     here
    0.88
    這些
    0.88
    เหล่านี้
    0.84
    these
    0.82
     этими
    0.79
     اینجا
    0.78
     guys
    0.77
    Act Density 0.000%

    No Known Activations