INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
     Dam
    -0.08
     Yep
    -0.08
     그리고
    -0.07
     paral
    -0.07
     ase
    -0.07
    (DB
    -0.07
     own
    -0.07
    -0.07
    CSA
    -0.07
    POSITIVE LOGITS
    日の
    0.08
    _squared
    0.08
     squared
    0.07
    anzu
    0.07
     Veranstaltung
    0.07
    rosi
    0.07
     regelmäßig
    0.07
    ők
    0.07
     wholeheartedly
    0.07
     האיר
    0.07
    Act Density 0.050%

    No Known Activations