INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    via
    -0.07
     чтобы
    -0.07
     burns
    -0.06
    vanized
    -0.06
    perate
    -0.06
    forced
    -0.06
    eat
    -0.06
    .visualization
    -0.06
    Ϥ
    -0.06
     pause
    -0.06
    POSITIVE LOGITS
     vững
    0.07
    0.07
    เถ
    0.07
    Maint
    0.07
    0.07
    أستاذ
    0.07
    حن
    0.07
    0.07
    にく
    0.07
    就好
    0.07
    Act Density 0.002%

    No Known Activations