INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     поклон
    -0.09
     fastening
    -0.08
    quait
    -0.08
     небольш
    -0.08
     движения
    -0.08
     размест
    -0.08
     пластиков
    -0.07
     пись
    -0.07
     convain
    -0.07
     обуч
    -0.07
    POSITIVE LOGITS
     sqrt
    0.10
    sqrt
    0.09
    .sqrt
    0.09
     squared
    0.09
     puntu
    0.08
     aura
    0.08
    平方
    0.08
     carriage
    0.08
    ូម
    0.08
     parentheses
    0.08
    Act Density 0.020%

    No Known Activations