INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     phong
    -0.09
     /\
    -0.08
     области
    -0.08
     cama
    -0.08
     полез
    -0.08
     פני
    -0.08
     phù
    -0.08
     Pho
    -0.08
     армии
    -0.08
     ըստ
    -0.08
    POSITIVE LOGITS
    helper
    0.08
    Helper
    0.08
    raš
    0.08
     Helper
    0.08
    Sprite
    0.07
     Turn
    0.07
    Wrap
    0.07
    Wrapping
    0.07
     helper
    0.07
     Wrap
    0.07
    Act Density 0.002%

    No Known Activations