INDEX
    Explanations

    physical locations

    New Auto-Interp
    Negative Logits
     INLINE
    -0.08
     Rox
    -0.07
    _META
    -0.07
     explicitly
    -0.07
     شاهد
    -0.07
     Gate
    -0.07
     Cas
    -0.07
    ापन
    -0.07
     knot
    -0.07
     properly
    -0.06
    POSITIVE LOGITS
     _
    ↵
    0.07
    [:,
    0.06
     cpt
    0.06
    他の
    0.06
     opr
    0.06
    бол
    0.06
    illian
    0.06
     [=
    0.06
    หว
    0.06
    σε
    0.06
    Act Density 0.015%

    No Known Activations