INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     revised
    -0.08
     माना
    -0.08
    past
    -0.07
     Kur
    -0.07
    -0.07
    צע
    -0.07
     خاط
    -0.07
     czym
    -0.07
     Hate
    -0.07
    Clear
    -0.07
    POSITIVE LOGITS
     unlimited
    0.08
    无限
    0.08
     Carm
    0.08
    ост
    0.08
     EDU
    0.07
     stuff
    0.07
     eeuw
    0.07
     =============================================================================
    0.07
    <Pair
    0.07
     FAR
    0.07
    Act Density 0.001%

    No Known Activations