INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     festivals
    -0.07
    -0.07
    .ease
    -0.07
               
    -0.06
    Missing
    -0.06
     מאמרים
    -0.06
    证书
    -0.06
     Experienced
    -0.06
     ciała
    -0.06
     Lone
    -0.06
    POSITIVE LOGITS
     maint
    0.08
     porówn
    0.07
     gid
    0.07
     barang
    0.07
    мет
    0.07
     Barang
    0.07
     dados
    0.06
    (trigger
    0.06
    不忍
    0.06
     חד
    0.06
    Act Density 0.137%

    No Known Activations