INDEX
    Explanations

    ability to do something

    New Auto-Interp
    Negative Logits
     עבור
    0.42
    விடும்
    0.41
    வதற்காக
    0.40
     обеспечения
    0.39
    所の
    0.38
     Preventing
    0.38
     στους
    0.37
    하는
    0.36
    កម្ម
    0.36
     өчен
    0.36
    POSITIVE LOGITS
     to
    0.77
     να
    0.64
     tp
    0.57
     yo
    0.54
     toim
    0.52
     ot
    0.50
     tio
    0.48
     tore
    0.46
     t
    0.46
    0.45
    Act Density 0.266%

    No Known Activations