INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    pref
    -0.06
     kuk
    -0.06
    -0.06
     Reuters
    -0.05
    -0.05
     Unicorn
    -0.05
    xea
    -0.05
    ahi
    -0.05
     Fireplace
    -0.05
    เอง
    -0.05
    POSITIVE LOGITS
     dernière
    0.08
    `↵
    0.07
     nhiễm
    0.07
    cp
    0.07
    -fix
    0.07
    发生
    0.07
     numberOf
    0.07
     threading
    0.07
    CHECK
    0.07
     handler
    0.07
    Act Density 0.003%

    No Known Activations