INDEX
    Explanations

    phrases that represent different aspects of identity or roles

    New Auto-Interp
    Negative Logits
    y
    -0.48
    rotnie
    -0.44
    BuildContext
    -0.44
     derecha
    -0.42
    yre
    -0.42
    ություն
    -0.42
    men
    -0.41
     υπάρχ
    -0.41
    -0.41
    -0.41
    POSITIVE LOGITS
    sebagai
    1.09
     sebagai
    1.06
     Sebagai
    1.05
    作為
    0.96
    Sebagai
    0.94
    jako
    0.93
     Jako
    0.92
    ItemBackground
    0.92
     jako
    0.90
     as
    0.88
    Act Density 0.389%

    No Known Activations