INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    роп
    -0.08
     लगाने
    -0.08
     लगाया
    -0.08
    jän
    -0.08
     gesehen
    -0.07
    łę
    -0.07
     cared
    -0.07
     Juvent
    -0.07
     बनाई
    -0.07
    ivative
    -0.07
    POSITIVE LOGITS
     dialogue
    0.20
     الحوار
    0.19
    Dialogue
    0.19
     Dialogue
    0.18
     dialogues
    0.18
     Dialog
    0.16
     diálogo
    0.16
     گفتگو
    0.15
    Conversation
    0.15
     संवाद
    0.14
    Act Density 0.178%

    No Known Activations