INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    测定
    -0.07
     of
    -0.07
    白马
    -0.07
    PB
    -0.06
    alls
    -0.06
     הספר
    -0.06
     canv
    -0.06
     действия
    -0.06
    StateMachine
    -0.06
    Flow
    -0.06
    POSITIVE LOGITS
    _emp
    0.07
    0.07
    .exist
    0.07
    .children
    0.07
    עשיר
    0.06
     فعل
    0.06
     WANT
    0.06
     לעית
    0.06
    _iff
    0.06
    0.06
    Act Density 0.008%

    No Known Activations