INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     voltage
    -0.08
     оборуд
    -0.08
     gior
    -0.08
    auf
    -0.08
    armed
    -0.08
     waffles
    -0.08
    maq
    -0.07
     Wi
    -0.07
    zub
    -0.07
    -0.07
    POSITIVE LOGITS
    éraire
    0.16
    éralement
    0.14
    érale
    0.11
    érature
    0.11
    érales
    0.10
    éraux
    0.10
    oral
    0.09
    éra
    0.09
    éral
    0.09
    0.09
    Act Density 0.001%

    No Known Activations