INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    rology
    -0.08
    fortunate
    -0.08
     memper
    -0.08
    就在
    -0.07
     доказ
    -0.07
     изменить
    -0.07
     Clair
    -0.07
     внес
    -0.07
     refundable
    -0.07
     настоя
    -0.07
    POSITIVE LOGITS
     anxiety
    0.14
     ansiedad
    0.13
     Anxiety
    0.13
     ansiedade
    0.12
     तनाव
    0.11
     anxious
    0.11
    0.11
     fears
    0.11
    0.10
     воспал
    0.10
    Act Density 0.015%

    No Known Activations