INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    бу
    -0.06
    +z
    -0.06
    асти
    -0.06
    чих
    -0.06
    .seed
    -0.06
    引き
    -0.06
    (tweet
    -0.06
    NX
    -0.05
     hoş
    -0.05
    网刊
    -0.05
    POSITIVE LOGITS
    _many
    0.07
    fo
    0.07
     reco
    0.07
     CAN
    0.07
     tempor
    0.06
     económ
    0.06
    万円
    0.06
    _middle
    0.06
    atas
    0.06
     Пом
    0.06
    Act Density 0.086%

    No Known Activations