INDEX
    Explanations

    Polish language

    New Auto-Interp
    Negative Logits
     prox
    -0.09
    Wx
    -0.07
    Locker
    -0.07
    -0.07
     peny
    -0.07
    OX
    -0.07
    -0.07
    -0.07
     프로
    -0.07
     अग
    -0.07
    POSITIVE LOGITS
    phr
    0.08
    দের
    0.07
     magistr
    0.07
    কর
    0.07
     deduct
    0.07
     الز
    0.07
    Orth
    0.07
     आठ
    0.07
     regulators
    0.07
    เรื่อง
    0.07
    Act Density 0.001%

    No Known Activations