INDEX
    Explanations

    explicit sexual content of that nature

    New Auto-Interp
    Negative Logits
     the
    0.64
    the
    0.59
     einer
    0.48
     as
    0.44
     hatta
    0.43
     a
    0.43
     emphasize
    0.42
     sebagai
    0.42
    0.41
    的时候
    0.40
    POSITIVE LOGITS
    ціа
    0.46
    мі
    0.44
     sorts
    0.44
    兩人
    0.44
    0.43
    нца
    0.42
    לו
    0.41
    ίου
    0.41
    0.41
    ство
    0.40
    Act Density 0.154%

    No Known Activations