INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    нен
    -0.09
     Änder
    -0.09
     envisage
    -0.08
    VAC
    -0.08
    agiye
    -0.08
    ماع
    -0.08
     نشده
    -0.08
     mudou
    -0.08
    Func
    -0.08
    -0.08
    POSITIVE LOGITS
     p
    0.08
    ad
    0.08
    0.08
    oms
    0.08
     a
    0.08
    .books
    0.08
     X
    0.08
     +
    0.07
    .firstname
    0.07
     대학
    0.07
    Act Density 0.003%

    No Known Activations