INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    2.02
     ಸರ್ಕಾರದ
    1.89
    中は
    1.84
     certainly
    1.72
    ються
    1.70
    ລັບ
    1.68
     przewod
    1.65
    νονται
    1.65
    и
    1.64
    anın
    1.64
    POSITIVE LOGITS
    wow
    1.80
    ха
    1.64
    er
    1.50
    ما
    1.49
    ように
    1.43
     USO
    1.43
     =========
    1.41
    widehat
    1.38
    cerr
    1.38
     غير
    1.37
    Act Density 0.002%

    No Known Activations