INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Woche
    -0.07
    (ps
    -0.07
     accrued
    -0.06
     viene
    -0.06
     patiënt
    -0.06
     IDR
    -0.06
     önünde
    -0.06
     childs
    -0.06
     üzerinden
    -0.06
    hf
    -0.06
    POSITIVE LOGITS
    启发
    0.08
    毕业
    0.08
     simp
    0.07
    :size
    0.07
    方圆
    0.07
    耐心
    0.07
    _given
    0.07
    积蓄
    0.07
    ashington
    0.07
    مفا
    0.07
    Act Density 0.021%

    No Known Activations