INDEX
Explanations
debunked conspiracy theories
New Auto-Interp
Negative Logits
ده
0.59
ем
0.57
ọ
0.57
ных
0.57
ھے
0.56
нат
0.56
ной
0.54
ан
0.52
ٹ
0.52
ні
0.52
POSITIVE LOGITS
הכ
0.58
κ
0.56
incluso
0.52
Κ
0.52
הק
0.52
Kas
0.51
C
0.51
Envi
0.51
Valid
0.50
Kris
0.50
Activations Density 0.001%