INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    LEY
    -0.07
    -0.07
     irre
    -0.07
     succeeding
    -0.07
     VIS
    -0.07
     Gors
    -0.06
    _xy
    -0.06
     passions
    -0.06
    orre
    -0.06
    gende
    -0.06
    POSITIVE LOGITS
    1
    0.15
     Лени
    0.08
    ¹
    0.08
    0
    0.07
    ۱
    0.07
    лика
    0.07
     
    0.07
    first
    0.07
    I
    0.07
    lt
    0.07
    Act Density 0.036%

    No Known Activations