INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Marie
    -0.09
    gra
    -0.08
     hy
    -0.07
     fol
    -0.07
     teraz
    -0.07
     carb
    -0.07
    ście
    -0.07
     Harry
    -0.07
     ens
    -0.07
    נסות
    -0.07
    POSITIVE LOGITS
    nasium
    0.09
    med
    0.08
    atics
    0.08
    atically
    0.08
    0.08
    atic
    0.08
    urai
    0.08
    0.08
    ышлен
    0.07
     dada
    0.07
    Act Density 0.511%

    No Known Activations