INDEX
    Explanations

    superhero training or themed

    New Auto-Interp
    Negative Logits
     ð
    0.55
     derogatory
    0.54
    O
    0.54
     plabic
    0.52
    ျေး
    0.50
    もら
    0.50
     лишь
    0.50
     подходит
    0.49
    лар
    0.48
     Shots
    0.48
    POSITIVE LOGITS
    an
    0.64
    м
    0.63
    م
    0.63
    n
    0.59
    ہ
    0.59
    0.55
    וד
    0.54
    ine
    0.53
    q
    0.53
    ம்
    0.52
    Act Density 0.001%

    No Known Activations