INDEX
Explanations
hate speech, discrimination
New Auto-Interp
Negative Logits
людини
0.47
алыңыз
0.46
élevées
0.45
тип
0.45
réfrig
0.45
філь
0.45
ાળા
0.44
кеңсе
0.44
ಬಹಳ
0.44
використову
0.43
POSITIVE LOGITS
{0.50
(
0.48
Genocide
0.48
=
0.47
ંદ
0.47
0.47
俵
0.45
TMC
0.45
ций
0.45
n
0.44
Activations Density 0.085%