INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    734
    -0.09
     rtn
    -0.07
    bedo
    -0.07
    MatrixXd
    -0.07
    Texture
    -0.06
     lattice
    -0.06
    iddled
    -0.06
    730
    -0.06
    ilestone
    -0.06
    724
    -0.06
    POSITIVE LOGITS
     Donald
    0.09
    Donald
    0.07
    onald
    0.07
    ↵↵↵
    0.06
     Ronald
    0.06
     McDonald
    0.06
    0.06
    ельно
    0.06
     підт
    0.06
     Борис
    0.06
    Act Density 0.007%

    No Known Activations