INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Hip
    -0.08
    -0.08
     Questo
    -0.07
     Same
    -0.07
     Guide
    -0.07
    แม
    -0.07
    VT
    -0.07
    .Gray
    -0.07
     Applic
    -0.07
    fähigkeit
    -0.07
    POSITIVE LOGITS
    erseits
    0.14
    0.13
     পক্ষ
    0.13
     πλευ
    0.13
     partea
    0.13
     стороны
    0.13
     तरफ
    0.12
    -side
    0.12
     phía
    0.12
     sisi
    0.12
    Act Density 0.019%

    No Known Activations