INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     kry
    -0.08
     tournament
    -0.07
     Engl
    -0.07
     sonst
    -0.07
     Kommun
    -0.07
     supra
    -0.07
    ーム
    -0.07
     Rivera
    -0.07
     Hostel
    -0.07
     Buck
    -0.07
    POSITIVE LOGITS
     ignorance
    0.08
     Plenty
    0.08
    vos
    0.08
    ïc
    0.08
     thwart
    0.07
    äv
    0.07
     cori
    0.07
     લોકો
    0.07
     ingen
    0.07
     particles
    0.07
    Act Density 0.081%

    No Known Activations