INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    طار
    -0.08
    acier
    -0.07
    validation
    -0.07
     лютого
    -0.07
    anc
    -0.06
    ンピ
    -0.06
     jedním
    -0.06
    -0.06
     brill
    -0.06
     frontier
    -0.06
    POSITIVE LOGITS
     student
    0.08
     Brah
    0.07
     owner
    0.07
    				 
    0.07
     χα
    0.06
    θεση
    0.06
    -secondary
    0.06
     απο
    0.06
     kız
    0.06
     θε
    0.06
    Act Density 0.000%

    No Known Activations