INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    ولی
    -0.07
     voltage
    -0.07
     Bishop
    -0.07
     Israelis
    -0.07
     substantive
    -0.06
     hacer
    -0.06
     monuments
    -0.06
     Ragnar
    -0.06
     virtues
    -0.06
    .*
    -0.06
    POSITIVE LOGITS
     지방
    0.07
     इनक
    0.07
     نتیجه
    0.07
    /html
    0.06
    ACCEPT
    0.06
     آقای
    0.06
     зелен
    0.06
    ”),
    0.06
    етерб
    0.06
     इसल
    0.06
    Act Density 0.107%

    No Known Activations