INDEX
    Explanations

    categories with purpose "for"

    New Auto-Interp
    Negative Logits
     olmadan
    0.44
    ир
    0.43
    0.42
    adhar
    0.42
    及び
    0.41
     மற்றும்
    0.41
    만의
    0.40
    และความ
    0.39
    0.38
    umably
    0.38
    POSITIVE LOGITS
     для
    0.56
     für
    0.53
     براي
    0.49
     zarówno
    0.46
     барои
    0.45
     برای
    0.44
     fyrir
    0.43
     för
    0.43
    สำหรับการ
    0.43
     pentru
    0.42
    Act Density 0.080%

    No Known Activations