INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    очного
    -0.07
    Nr
    -0.07
    mass
    -0.07
    nb
    -0.07
     Elementary
    -0.06
    (num
    -0.06
    μάτων
    -0.06
    Safe
    -0.06
     warns
    -0.06
    Mont
    -0.06
    POSITIVE LOGITS
     lawy
    0.06
    الد
    0.06
    jest
    0.06
    0.06
    дя
    0.06
    яття
    0.06
    logs
    0.06
    ุร
    0.06
    гу
    0.06
    创新
    0.06
    Act Density 0.008%

    No Known Activations