INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     muck
    -0.08
    -0.08
     Durch
    -0.07
    _DE
    -0.07
    维修
    -0.07
     sneeuw
    -0.07
     dad
    -0.07
    คน
    -0.07
     неоп
    -0.07
    ssä
    -0.07
    POSITIVE LOGITS
    from
    0.11
    来自
    0.11
     borrowed
    0.10
    	from
    0.09
    Borrow
    0.09
     from
    0.09
     Borrow
    0.09
     borrow
    0.09
    borrow
    0.09
     dari
    0.09
    Act Density 0.044%

    No Known Activations