INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    -0.08
     verbs
    -0.07
    -0.07
    bah
    -0.07
    ausible
    -0.07
    אמן
    -0.07
     osp
    -0.07
    .repo
    -0.07
     amen
    -0.06
     Expo
    -0.06
    POSITIVE LOGITS
     Pence
    0.08
    0.07
    .MaximizeBox
    0.07
     Piece
    0.07
     Prince
    0.07
    érieur
    0.07
    0.07
     principles
    0.07
     ValueType
    0.07
    0.07
    Act Density 0.006%

    No Known Activations