INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     działal
    -0.08
     चे
    -0.08
     Director
    -0.07
    """↵↵
    -0.07
    -fold
    -0.07
     Terap
    -0.07
    -Type
    -0.07
    -close
    -0.07
    कारी
    -0.07
    baar
    -0.07
    POSITIVE LOGITS
    gemeinschaft
    0.08
    ror
    0.08
     בהר
    0.08
     wisely
    0.08
     ungewöhn
    0.07
    visual
    0.07
     règlement
    0.07
     neutron
    0.07
    0.07
    -Christian
    0.07
    Act Density 0.000%

    No Known Activations