INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     neurons
    -0.08
     devi
    -0.08
     نح
    -0.08
    .module
    -0.07
    .unit
    -0.07
     zapatos
    -0.07
     pensando
    -0.07
     બંધ
    -0.07
     noticias
    -0.07
     неожидан
    -0.07
    POSITIVE LOGITS
    0.08
     Fa
    0.07
    ि
    0.07
    ời
    0.07
    0.07
     खर
    0.07
     Xiao
    0.07
     Tate
    0.07
    0.07
    _SHA
    0.07
    Act Density 0.010%

    No Known Activations