INDEX
    Explanations

    differentials

    New Auto-Interp
    Negative Logits
    Наз
    -0.07
     Workplace
    -0.07
     вын
    -0.07
    -0.07
     trouble
    -0.07
     fördern
    -0.07
     teddy
    -0.07
    Mission
    -0.07
     Wing
    -0.07
     verbally
    -0.07
    POSITIVE LOGITS
    \t
    0.09
     dq
    0.08
     dx
    0.08
     همراه
    0.08
     recorder
    0.07
     بہت
    0.07
    0.07
    ाउ
    0.07
    bundle
    0.07
     jangan
    0.07
    Act Density 0.007%

    No Known Activations