INDEX
    Explanations

    prepositions

    New Auto-Interp
    Negative Logits
     Monk
    -0.09
     व्यव
    -0.08
     Lak
    -0.08
    _tim
    -0.08
     ETC
    -0.07
    ptic
    -0.07
    -0.07
     Tant
    -0.07
     obi
    -0.07
    igna
    -0.07
    POSITIVE LOGITS
     свой
    0.08
     betre
    0.07
     vag
    0.07
     polygon
    0.07
     있어서
    0.07
     Ano
    0.07
    0.07
     weib
    0.07
     additive
    0.07
    jego
    0.07
    Act Density 0.858%

    No Known Activations