INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    _shift
    -0.07
    .FixedSingle
    -0.07
    cdf
    -0.07
     Bison
    -0.07
    -0.07
     ash
    -0.07
     Sent
    -0.07
     cryst
    -0.07
    Av
    -0.06
    fef
    -0.06
    POSITIVE LOGITS
    ДЕ
    0.07
     Color
    0.07
    省委
    0.07
    ług
    0.07
     undermines
    0.07
    Persona
    0.07
     декабря
    0.07
    חלום
    0.07
    rum
    0.07
     całego
    0.07
    Act Density 0.022%

    No Known Activations