INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Beige
    -0.09
     besch
    -0.08
     widers
    -0.08
     palettes
    -0.08
     beige
    -0.08
    -0.08
    一定
    -0.07
     menj
    -0.07
     besteht
    -0.07
     änd
    -0.07
    POSITIVE LOGITS
    iciar
    0.08
     הפר
    0.07
    0.07
     ministers
    0.07
    cri
    0.07
     страхов
    0.07
     cov
    0.07
     cooperating
    0.07
    criber
    0.07
    icia
    0.07
    Act Density 0.054%

    No Known Activations