INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     reminiscent
    -0.09
    ,为
    -0.08
     dependiendo
    -0.08
     nas
    -0.07
    ります
    -0.07
     formally
    -0.07
    COLOR
    -0.07
    .shtml
    -0.07
    еться
    -0.07
     nomen
    -0.07
    POSITIVE LOGITS
     плюс
    0.11
     multiplied
    0.10
    "]/
    0.09
     minus
    0.09
     greið
    0.08
    ))/
    0.08
    0.08
     AND
    0.08
    ']/
    0.08
     δη
    0.08
    Act Density 0.079%

    No Known Activations