INDEX
Explanations
writing, describing, showing harmful content
New Auto-Interp
Negative Logits
নিরাপত্তা
0.40
пункт
0.39
ರೀತಿಯ
0.39
ಥವಾ
0.38
конди
0.38
бе
0.38
кон
0.38
த்
0.38
funding
0.38
粞
0.38
POSITIVE LOGITS
'
0.49
this
0.44
<0xB6>
0.44
ämän
0.44
もちろん
0.43
Ô
0.41
'...
0.40
هذه
0.40
duyg
0.40
”—
0.40
Activations Density 0.077%