INDEX
    Explanations

    ethical/harmful content avoidance

    New Auto-Interp
    Negative Logits
    ی
    1.45
    л
    1.40
    те
    1.39
    не
    1.38
    te
    1.29
    es
    1.27
    ي
    1.27
    кте
    1.27
    a
    1.21
    1.20
    POSITIVE LOGITS
     berkaitan
    1.18
     šta
    1.17
    하는
    1.16
     عشق
    1.15
    を行い
    1.14
    あり
    1.13
    ότη
    1.13
     storico
    1.13
    했지만
    1.12
    をする
    1.11
    Act Density 0.000%

    No Known Activations