INDEX
    Explanations

    role-playing

    New Auto-Interp
    Negative Logits
     Bhar
    -0.09
     collaborateurs
    -0.08
     koll
    -0.08
     collega
    -0.08
     फैल
    -0.07
     sublime
    -0.07
     récomp
    -0.07
     killing
    -0.07
     akhirnya
    -0.07
     bijge
    -0.07
    POSITIVE LOGITS
     pretending
    0.15
    我是
    0.12
     pretend
    0.12
    模拟
    0.12
     persona
    0.11
     അഭിനയ
    0.11
    角色
    0.11
    simulate
    0.10
     simulate
    0.10
     역할
    0.10
    Act Density 0.063%

    No Known Activations