INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ကြည့်
    0.44
    0.43
    0.42
     バス
    0.41
     ശക്തി
    0.40
    ufieurs
    0.40
    raper
    0.40
    𒅁
    0.40
    0.39
    harma
    0.39
    POSITIVE LOGITS
     zero
    2.83
    zero
    2.31
     Zero
    2.20
     cero
    2.17
     ZERO
    2.17
     zéro
    2.17
    Zero
    2.14
    2.08
     जीरो
    2.03
    ゼロ
    2.02
    Act Density 0.169%

    No Known Activations