INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ate
    -0.07
    itation
    -0.06
    ávající
    -0.06
     Lyft
    -0.06
    y
    -0.06
     Soul
    -0.06
     Colony
    -0.06
    -setting
    -0.05
     skyline
    -0.05
     rollout
    -0.05
    POSITIVE LOGITS
     dangerous
    0.10
     danger
    0.09
     Danger
    0.09
    Danger
    0.08
    0.08
    danger
    0.07
     innoc
    0.07
     dangers
    0.07
    ظ
    0.07
    !");↵↵
    0.07
    Act Density 0.013%

    No Known Activations