INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     supérieures
    -0.67
     supérieurs
    -0.66
     stället
    -0.66
     religieuses
    -0.63
     suivantes
    -0.60
     élevées
    -0.60
     policiales
    -0.60
     död
    -0.59
     colorés
    -0.58
     électriques
    -0.57
    POSITIVE LOGITS
     '\\;'
    0.65
    Tembelea
    0.64
    his
    0.62
     oprot
    0.62
     laid
    0.60
     Waray
    0.59
     lays
    0.59
    0.57
     his
    0.57
    
    
    0.57
    Act Density 0.008%

    No Known Activations