INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ModelExpression
    -0.68
     مشين
    -0.66
     autorytatywna
    -0.65
    +#+
    -0.65
    تقاوى
    -0.65
    majánló
    -0.63
    NameInMap
    -0.63
    niſſe
    -0.63
    новниш
    -0.62
    ſchaft
    -0.62
    POSITIVE LOGITS
    nimmt
    0.41
     berlaku
    0.41
     ardından
    0.40
    for
    0.38
    essentiel
    0.36
    c
    0.36
     ziekte
    0.36
    C
    0.35
     Ausführungen
    0.35
     Weiterbildung
    0.35
    Act Density 0.018%

    No Known Activations