INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    (ent
    -0.07
     nutshell
    -0.07
     রয়েছে
    -0.07
    (final
    -0.07
     político
    -0.07
     леп
    -0.07
     г
    -0.07
     gotta
    -0.07
     logr
    -0.07
     Destroy
    -0.07
    POSITIVE LOGITS
     Hebrews
    0.08
     اجازه
    0.08
     hardship
    0.08
    indwa
    0.08
     radu
    0.07
    一次
    0.07
     disclosure
    0.07
    heid
    0.07
     vám
    0.07
    备案
    0.07
    Act Density 0.033%

    No Known Activations