INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     controversy
    -0.07
    оя
    -0.07
     womb
    -0.07
    venta
    -0.07
    ової
    -0.07
    iosa
    -0.07
    698
    -0.07
     Beaver
    -0.07
     harb
    -0.07
    ','=',
    -0.06
    POSITIVE LOGITS
     dim
    0.10
    Dim
    0.09
     Dim
    0.08
    _dim
    0.08
    dim
    0.08
    ��
    0.08
     DIM
    0.08
    0.07
     lim
    0.07
    0.07
    Act Density 0.007%

    No Known Activations