INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     например
    -0.08
    Christine
    -0.08
    ан
    -0.08
     всю
    -0.08
     z
    -0.07
     நேர
    -0.07
     vinden
    -0.07
     древ
    -0.07
     Chiefs
    -0.07
    čev
    -0.07
    POSITIVE LOGITS
    情况下
    0.11
    看来
    0.10
    目前
    0.10
     noto
    0.09
     actuellement
    0.08
    currently
    0.08
    不足
    0.08
     gripe
    0.08
     وما
    0.08
    处理中
    0.08
    Act Density 0.046%

    No Known Activations