INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    	prop
    -0.08
     распространен
    -0.07
    𡐓
    -0.07
    -0.07
    --;↵↵
    -0.07
    rine
    -0.07
     Lead
    -0.07
    şek
    -0.07
    İZ
    -0.07
    	best
    -0.06
    POSITIVE LOGITS
    ////////////////////////////////////////////////////////
    0.07
    她在
    0.07
     gravity
    0.07
    太大
    0.07
     Meditation
    0.07
     łazien
    0.07
    됩니다
    0.07
    했습니다
    0.06
    操纵
    0.06
    就像
    0.06
    Act Density 0.001%

    No Known Activations