INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     verbinden
    -0.08
     Hig
    -0.08
    Thickness
    -0.07
    nl
    -0.07
    Distances
    -0.07
    prob
    -0.07
    verb
    -0.07
     verbindet
    -0.07
    logger
    -0.07
     Tun
    -0.07
    POSITIVE LOGITS
     ADA
    0.08
     пенсион
    0.08
    ża
    0.08
     מז
    0.07
     marginalized
    0.07
    .nic
    0.07
    ২০
    0.07
     chete
    0.07
    Uni
    0.07
     indy
    0.07
    Act Density 0.001%

    No Known Activations