INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    )animated
    -0.07
    ')?>
    -0.07
     angst
    -0.07
    -success
    -0.07
    Proceed
    -0.06
     Maths
    -0.06
    感じ
    -0.06
    	So
    -0.06
     дітей
    -0.06
    cano
    -0.06
    POSITIVE LOGITS
    -update
    0.08
    .capacity
    0.07
    Contrib
    0.06
     STD
    0.06
     grievances
    0.06
    tright
    0.06
    ACITY
    0.06
    nun
    0.06
     Václav
    0.06
     Classics
    0.06
    Act Density 0.006%

    No Known Activations