INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    arty
    -0.07
    And
    -0.07
     construction
    -0.07
    (xx
    -0.07
    -0.06
    -0.06
    .Math
    -0.06
     word
    -0.06
     Christ
    -0.06
    qx
    -0.06
    POSITIVE LOGITS
     asoci
    0.08
     keen
    0.08
    İLİ
    0.08
    رفض
    0.08
     высоко
    0.07
    skór
    0.07
     İki
    0.07
    מאוחר
    0.07
     الطفل
    0.07
    _neighbors
    0.07
    Act Density 0.002%

    No Known Activations