INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.07
     diplom
    -0.07
    /In
    -0.07
    回应
    -0.07
    -0.07
    <div
    -0.07
     inorganic
    -0.07
     Ed
    -0.07
     диплом
    -0.07
    -0.07
    POSITIVE LOGITS
     yace
    0.08
     gefahren
    0.08
     uphol
    0.08
     spielt
    0.08
    렇게
    0.08
     gelernt
    0.07
     centraal
    0.07
    prochen
    0.07
    bier
    0.07
    원을
    0.07
    Act Density 0.003%

    No Known Activations