INDEX
    Explanations

    Italic styling

    New Auto-Interp
    Negative Logits
    稳定
    -0.09
    完善
    -0.08
     stabilize
    -0.08
     stabilité
    -0.08
    大量
    -0.08
    产生
    -0.07
    设施
    -0.07
    -0.07
     rail
    -0.07
     znám
    -0.07
    POSITIVE LOGITS
     italic
    0.16
    Italic
    0.13
    italic
    0.13
     ital
    0.12
     Ital
    0.10
     dashed
    0.09
    umu
    0.09
    .wind
    0.08
     whim
    0.08
     dotted
    0.08
    Act Density 0.007%

    No Known Activations