INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     firearms
    0.38
     automobiles
    0.35
     ys
    0.33
    ماية
    0.33
     depred
    0.33
     économiques
    0.32
     العامة
    0.31
    ناس
    0.31
     seguridad
    0.31
     quieras
    0.30
    POSITIVE LOGITS
    uradaki
    0.31
     уточ
    0.31
     признаки
    0.31
    0.31
    lb
    0.31
    ad
    0.30
     עם
    0.30
     изменение
    0.30
    특히
    0.30
    avec
    0.30
    Act Density 0.102%

    No Known Activations