INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     spécifiques
    0.60
    PathDirectory
    0.53
     зи
    0.51
    łaszcza
    0.50
     ডিগ্র
    0.50
    𝐪
    0.50
     σημαν
    0.49
     रोजिक
    0.49
     важ
    0.48
    вов
    0.48
    POSITIVE LOGITS
    نا
    0.54
    S
    0.47
     de
    0.47
    on
    0.44
     paragraph
    0.44
     envis
    0.43
     investment
    0.42
    ון
    0.41
    move
    0.41
     be
    0.41
    Act Density 0.037%

    No Known Activations