INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
     defined
    -0.07
     salaris
    -0.07
    φα
    -0.07
     polož
    -0.07
     باد
    -0.07
    ό
    -0.07
    -0.07
    Residual
    -0.07
     Plastik
    -0.07
    POSITIVE LOGITS
     зан
    0.09
     собак
    0.09
    district
    0.08
     distr
    0.08
    0.08
    -ann
    0.08
     NEC
    0.07
    .ast
    0.07
     attorney
    0.07
    0.07
    Act Density 0.006%

    No Known Activations