INDEX
    Explanations

    debunked conspiracy theories

    New Auto-Interp
    Negative Logits
    ده
    0.59
    ем
    0.57
    0.57
    ных
    0.57
    ھے
    0.56
    нат
    0.56
    ной
    0.54
    ан
    0.52
    ٹ
    0.52
    ні
    0.52
    POSITIVE LOGITS
     הכ
    0.58
     κ
    0.56
     incluso
    0.52
     Κ
    0.52
     הק
    0.52
     Kas
    0.51
     C
    0.51
     Envi
    0.51
    Valid
    0.50
     Kris
    0.50
    Act Density 0.001%

    No Known Activations