INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     persoon
    -0.08
    -0.07
     ove
    -0.07
    割合
    -0.07
     ц
    -0.07
     поис
    -0.07
    .ber
    -0.07
     الو
    -0.07
    уми
    -0.07
    -0.07
    POSITIVE LOGITS
     Brace
    0.08
     MPL
    0.08
     straighten
    0.08
     Mauricio
    0.08
     Upr
    0.07
     edi
    0.07
    nici
    0.07
     grues
    0.07
    rack
    0.07
    FK
    0.07
    Act Density 0.002%

    No Known Activations