INDEX
    Explanations
    New Auto-Interp
    Negative Logits
    \Persistence
    -0.07
    ialis
    -0.06
     veterans
    -0.06
    "\↵
    -0.06
    ')],↵
    -0.06
    وث
    -0.06
    iciální
    -0.06
     VII
    -0.06
    っぱい
    -0.06
    цять
    -0.05
    POSITIVE LOGITS
    direction
    0.07
     conveniently
    0.07
    562
    0.07
    935
    0.07
    0.07
    617
    0.06
    0.06
    MDB
    0.06
     MSG
    0.06
    .warn
    0.06
    Act Density 0.001%

    No Known Activations