INDEX
Negative Logits
Bhar
-0.09
collaborateurs
-0.08
koll
-0.08
collega
-0.08
फैल
-0.07
sublime
-0.07
récomp
-0.07
killing
-0.07
akhirnya
-0.07
bijge
-0.07
POSITIVE LOGITS
pretending
0.15
我是
0.12
pretend
0.12
模拟
0.12
persona
0.11
അഭിനയ
0.11
角色
0.11
simulate
0.10
simulate
0.10
역할
0.10
Activations Density 0.063%