INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     roommate
    -0.07
    	child
    -0.06
    -story
    -0.06
     doctors
    -0.06
    -feedback
    -0.06
    tım
    -0.06
     přep
    -0.06
    ผม
    -0.06
     bald
    -0.05
    xDA
    -0.05
    POSITIVE LOGITS
    .Acc
    0.07
     eines
    0.07
     رفته
    0.07
    Зап
    0.06
    elay
    0.06
    жение
    0.06
     different
    0.06
    IDE
    0.06
    www
    0.06
    dx
    0.06
    Act Density 0.227%

    No Known Activations