INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     chops
    -0.07
    ools
    -0.07
    .Tasks
    -0.07
     isn
    -0.07
     ihrer
    -0.07
     Diamond
    -0.06
     Kimber
    -0.06
     diamond
    -0.06
    -dess
    -0.06
     студ
    -0.06
    POSITIVE LOGITS
    omin
    0.07
     comprehensive
    0.06
    .directory
    0.06
    >/<
    0.06
    oram
    0.06
    far
    0.06
    كم
    0.06
    Rename
    0.06
    itori
    0.06
    очек
    0.06
    Act Density 0.006%

    No Known Activations