INDEX
    Explanations

    breaking down into categories

    New Auto-Interp
    Negative Logits
    otoxic
    0.40
     glial
    0.40
     entirety
    0.39
    Human
    0.39
     nincs
    0.38
    Chronic
    0.38
     ندارد
    0.37
    documentation
    0.37
     emerges
    0.37
     degenerate
    0.37
    POSITIVE LOGITS
     catégories
    0.57
     categories
    0.52
     categorias
    0.52
     categorías
    0.51
     categorie
    0.50
     categoría
    0.49
     श्रेणियों
    0.48
     कैटेगरी
    0.47
     categor
    0.47
     Größen
    0.45
    Act Density 0.400%

    No Known Activations