INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     fare
    -0.08
    -0.08
     ниже
    -0.08
    -0.07
    At
    -0.07
     helpers
    -0.07
    深入
    -0.07
    家具
    -0.07
     movies
    -0.07
     citation
    -0.07
    POSITIVE LOGITS
     Świat
    0.08
    أكثر
    0.07
     provid
    0.07
    GBK
    0.06
    fraction
    0.06
    ryfall
    0.06
     Trit
    0.06
     Trafford
    0.06
     Moines
    0.06
    白云
    0.06
    Act Density 0.125%

    No Known Activations