INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     ears
    -0.08
    خير
    -0.07
    listener
    -0.07
     routes
    -0.07
     hive
    -0.07
    _DIRECT
    -0.07
     trot
    -0.07
     EEG
    -0.07
    -0.07
     listener
    -0.07
    POSITIVE LOGITS
     sexuality
    0.09
    tagon
    0.09
        			
    0.08
     morality
    0.08
     זוג
    0.08
    情侣
    0.08
     romantic
    0.08
     Couples
    0.08
    issing
    0.07
     विवाह
    0.07
    Act Density 0.022%

    No Known Activations