INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     libertin
    -0.08
    ture
    -0.08
     dessert
    -0.08
     restaurant
    -0.07
     Liqu
    -0.07
     hydr
    -0.07
     ore
    -0.07
    .Then
    -0.07
     sécurité
    -0.07
     gastr
    -0.07
    POSITIVE LOGITS
    .Java
    0.07
    ья
    0.07
    bled
    0.07
     jab
    0.07
     dav
    0.07
     algae
    0.07
    '].'/
    0.07
     ult
    0.07
    0.07
    0.07
    Act Density 0.013%

    No Known Activations