INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     давно
    -0.07
     novembre
    -0.07
    ุ่
    -0.06
     rég
    -0.06
     calm
    -0.06
     sixth
    -0.06
    ijo
    -0.06
     contre
    -0.06
    ong
    -0.06
    nh
    -0.06
    POSITIVE LOGITS
     Studies
    0.07
     humanities
    0.07
     Humanities
    0.07
    0.06
     Wen
    0.06
     POLIT
    0.06
     Hermione
    0.06
     studies
    0.06
     Cyr
    0.06
    .Bus
    0.06
    Act Density 0.010%

    No Known Activations