INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    很多
    -0.07
    -0.07
     όπως
    -0.07
     adet
    -0.06
    ичної
    -0.06
     baj
    -0.06
    -0.06
     svou
    -0.06
    ับม
    -0.06
     tasks
    -0.06
    POSITIVE LOGITS
    лаж
    0.07
    0.06
    okit
    0.06
     behalf
    0.06
    _Comm
    0.06
    .second
    0.06
    	null
    0.06
     Estate
    0.06
    _COMPILE
    0.06
    0.06
    Act Density 0.008%

    No Known Activations