INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     définiti
    -0.76
     religieuses
    -0.75
     חיצוניים
    -0.75
     étrangères
    -0.74
     régl
    -0.73
     élevées
    -0.72
     connus
    -0.71
     préparé
    -0.70
     découver
    -0.70
     nationaux
    -0.70
    POSITIVE LOGITS
     principal
    0.63
     concept
    0.63
     system
    0.61
    AxisAlignment
    0.57
     process
    0.54
    tagHelper
    0.46
     Erb
    0.46
     princi
    0.46
     vain
    0.45
     syst
    0.44
    Act Density 0.000%

    No Known Activations