INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    emple
    -0.07
    まった
    -0.06
    ούν
    -0.06
     Ін
    -0.06
    [min
    -0.06
    MAR
    -0.06
     resignation
    -0.06
    しました
    -0.06
    )[-
    -0.06
     учас
    -0.06
    POSITIVE LOGITS
    ocom
    0.06
    -bar
    0.06
     Side
    0.06
     sts
    0.06
     نظری
    0.06
     wd
    0.06
    DATED
    0.06
     dialog
    0.06
     side
    0.06
    	model
    0.06
    Act Density 0.007%

    No Known Activations