INDEX
    Explanations

    pronoun followed by 'are' or 'is'

    New Auto-Interp
    Negative Logits
    ¶Į
    -0.12
    itia
    -0.09
    éĺħ读次æķ°
    -0.09
    ©©
    -0.08
    好çļĦ
    -0.08
    702
    -0.08
    ãģ£ãģ¨
    -0.08
    °}
    -0.08
    leine
    -0.08
    ÙģØ±Ø§ÙĨ
    -0.08
    POSITIVE LOGITS
    're
    0.17
    ’;re
    0.15
    've
    0.13
     are
    0.12
    ’;ve
    0.11
     ï¾Ħ
    0.10
     är
    0.10
    'm
    0.10
     adalah
    0.10
     Cannot
    0.10
    Act Density 0.202%

    No Known Activations