INDEX
    Explanations

    calculations

    New Auto-Interp
    Negative Logits
     CBS
    -0.08
    -AS
    -0.07
     MGM
    -0.07
    -0.07
     	
    -0.07
    _CB
    -0.07
    ↵			↵
    -0.07
     Conn
    -0.07
     affaires
    -0.07
     				
    -0.07
    POSITIVE LOGITS
    ↵    ↵↵
    0.08
    ↵    ↵    ↵
    0.08
    0.07
      ↵    ↵
    0.07
    LEM
    0.07
    ↵    ↵
    0.07
    <|endoftext|>
    0.07
     امر
    0.07
     при
    0.07
    Saint
    0.07
    Act Density 1.444%

    No Known Activations