INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     atrav
    -0.10
     yek
    -0.08
    ләнгән
    -0.08
    .mb
    -0.08
    .Ab
    -0.08
    èu
    -0.08
     resumo
    -0.08
     segu
    -0.08
    .summary
    -0.08
     lautet
    -0.08
    POSITIVE LOGITS
     beers
    0.07
    URNS
    0.07
     スーパー
    0.07
    Rum
    0.07
    Px
    0.07
     बाब
    0.07
     posting
    0.07
    ീര
    0.07
    Pn
    0.07
    раб
    0.07
    Act Density 0.002%

    No Known Activations