INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     stagn
    -0.08
    notif
    -0.08
    hidden
    -0.08
     hidden
    -0.08
    locations
    -0.08
     technically
    -0.07
     '.',
    -0.07
    GIF
    -0.07
     Showcase
    -0.07
     tattoo
    -0.07
    POSITIVE LOGITS
     philosopher
    0.11
     בתחום
    0.11
    出版
    0.11
    博士
    0.11
     filóso
    0.11
     researcher
    0.10
     philosophers
    0.10
     epistem
    0.10
     Ariel
    0.10
    老师
    0.10
    Act Density 0.019%

    No Known Activations