INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     setCode
    -0.90
     plen
    -0.87
     TRABAJO
    -0.86
     zerstört
    -0.85
     burada
    -0.85
     AÑO
    -0.82
    トマト
    -0.81
    бирать
    -0.81
     oblige
    -0.81
    Dass
    -0.81
    POSITIVE LOGITS
     in
    1.27
    nieder
    0.92
     as
    0.91
    0.90
     from
    0.90
    金を
    0.85
    рений
    0.85
    אר
    0.84
    luster
    0.84
     at
    0.82
    Act Density 0.169%

    No Known Activations