INDEX
    Explanations
    New Auto-Interp
    Negative Logits
     oraz
    0.22
    0.20
          
    0.19
    0.19
              
    0.17
                  
    0.17
     ngunit
    0.17
    )
    0.16
    ↵↵
    0.16
             
    0.16
    POSITIVE LOGITS
    you
    0.25
     honestly
    0.24
    imagine
    0.23
    Honestly
    0.23
    getting
    0.22
     kudos
    0.22
    正直
    0.22
     imagine
    0.21
    yeah
    0.21
    maybe
    0.21
    Act Density 0.136%

    No Known Activations