INDEX
    Explanations

    intensifiers before descriptors

    New Auto-Interp
    Negative Logits
     וא
    0.65
    ет
    0.63
    ורה
    0.61
    ות
    0.59
    0.58
     са
    0.58
    0.57
     г
    0.56
     impoverished
    0.55
    দের
    0.55
    POSITIVE LOGITS
    u
    0.70
    TON
    0.57
    i
    0.56
    !:
    0.56
     tecnológica
    0.56
    är
    0.54
    h
    0.54
    !
    0.54
    It
    0.54
     ::
    0.53
    Act Density 0.344%

    No Known Activations