INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     первой
    -0.07
     theater
    -0.07
    _bt
    -0.07
     labour
    -0.07
     лишь
    -0.07
     حيث
    -0.06
    лася
    -0.06
    OGRAPH
    -0.06
    IIIK
    -0.06
     theatre
    -0.06
    POSITIVE LOGITS
     uncle
    0.24
     Uncle
    0.23
     cousin
    0.15
     cousins
    0.14
    cles
    0.09
    0.08
    ucle
    0.07
     Cousins
    0.07
     Cous
    0.07
    und
    0.07
    Act Density 0.002%

    No Known Activations