INDEX
Explanations
objectification and degradation
New Auto-Interp
Negative Logits
Shared
0.46
நம்
0.42
domain
0.41
sangat
0.41
domain
0.40
vår
0.40
我們的
0.38
بتاعتنا
0.38
naszym
0.38
<0xCB>
0.38
POSITIVE LOGITS
牲
0.48
unlucky
0.47
என்பவர்
0.47
обслу
0.45
తగ్
0.42
nameless
0.42
被人
0.42
ону
0.41
出现在
0.41
unwitting
0.41
Activations Density 0.113%