INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     Hoffman
    -0.08
     posture
    -0.07
    pository
    -0.07
    -0.07
     rollback
    -0.07
     since
    -0.07
    _course
    -0.07
    BALL
    -0.07
     Soldier
    -0.07
    bones
    -0.07
    POSITIVE LOGITS
     un
    0.15
     Un
    0.13
    Un
    0.10
    (un
    0.09
    un
    0.09
    /un
    0.08
    (Un
    0.08
    .Un
    0.08
    	UN
    0.08
     unp
    0.07
    Act Density 0.044%

    No Known Activations