INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     zależy
    -0.06
     свое
    -0.06
    Tbl
    -0.06
    -Q
    -0.06
     wides
    -0.06
     sprinkle
    -0.06
     Splash
    -0.06
     דור
    -0.06
    finite
    -0.06
    拳头
    -0.06
    POSITIVE LOGITS
     европ
    0.07
    (%
    0.07
    0.07
    [len
    0.07
     kitt
    0.07
    苏州
    0.07
    _CAM
    0.07
     cooperating
    0.07
     helper
    0.07
    _WRONG
    0.07
    Act Density 0.007%

    No Known Activations