INDEX
    Explanations

    possessive "'s"

    New Auto-Interp
    Negative Logits
     pouch
    -0.08
     constexpr
    -0.08
     NOTICE
    -0.08
    -0.07
     plywood
    -0.07
     FU
    -0.07
     Male
    -0.07
     OR
    -0.07
     tsp
    -0.07
     figur
    -0.07
    POSITIVE LOGITS
     Vir
    0.08
     reine
    0.07
     fraî
    0.07
    יתים
    0.07
    是不
    0.07
     ale
    0.07
    ుతూ
    0.07
     सेल
    0.07
    ుత
    0.07
     바이
    0.07
    Act Density 0.030%

    No Known Activations