INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     altres
    0.38
     همچنین
    0.34
     dalších
    0.32
     سایر
    0.31
     অন্যান্য
    0.31
     punishments
    0.30
     demás
    0.30
    بعض
    0.29
    ]."
    0.29
    ßerdem
    0.29
    POSITIVE LOGITS
     This
    0.48
    これは
    0.42
     consisting
    0.41
     Đây
    0.40
    This
    0.38
    这是一个
    0.38
     Tämä
    0.37
     this
    0.37
    こちらは
    0.37
    这是一
    0.36
    Act Density 3.789%

    No Known Activations