INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
    -0.08
     verb
    -0.07
     לעזור
    -0.07
    -0.07
    _And
    -0.07
    -0.07
     ספר
    -0.07
    Axis
    -0.07
    tell
    -0.07
    POSITIVE LOGITS
     ^^
    0.07
    尊重
    0.07
     opened
    0.07
    のも
    0.07
    という
    0.07
    0.07
    的照片
    0.07
     ра
    0.07
     $("
    0.07
    رحم
    0.07
    Act Density 0.024%

    No Known Activations