INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     बोल
    -0.08
     messenger
    -0.08
     cn
    -0.08
     Verd
    -0.08
     besz
    -0.08
     distrib
    -0.07
    -0.07
     Bron
    -0.07
     unified
    -0.07
    -0.07
    POSITIVE LOGITS
    -TV
    0.09
     Всё
    0.08
    0.08
     Mh
    0.08
    _VAL
    0.08
    -O
    0.08
    (;
    0.08
     Pada
    0.07
    _ID
    0.07
     Oleh
    0.07
    Act Density 0.003%

    No Known Activations