INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     pous
    -0.08
    ినా
    -0.08
     κρα
    -0.08
     Դ
    -0.08
     grat
    -0.07
     Kir
    -0.07
     արվեստ
    -0.07
     պաշտպանության
    -0.07
     պաշտպան
    -0.07
    XR
    -0.07
    POSITIVE LOGITS
    ru
    0.08
     obey
    0.08
    oco
    0.08
    Lvl
    0.07
    _arm
    0.07
    Illuminate
    0.07
    0.07
    ұс
    0.07
    া�
    0.07
    0.07
    Act Density 0.582%

    No Known Activations