INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    <unused972>
    0.23
     แต
    0.22
     להיות
    0.22
    โยชน์
    0.22
     تمامی
    0.22
     נישט
    0.21
     wyt
    0.21
     anvä
    0.21
     mendatang
    0.21
     повинні
    0.21
    POSITIVE LOGITS
     two
    0.32
    ва
    0.31
    兩個
    0.30
     două
    0.29
    两个
    0.29
     beiden
    0.29
    з
    0.29
    0.29
     రెండు
    0.28
    وم
    0.28
    Act Density 0.216%

    No Known Activations