职位详情
职位描述
云平台SRE (Site Reliability Engineering) 团队的任务是确保阿里云生产环境的稳定性、企业级云数据的可靠性和业务连续性。挑战在于保证基于云的客户不间断的业务运营,并实现超过 99.99% 的可用性。
云平台SRE 团队的目标是建⽴一个技术与管理相结合的系统稳定性保障框架,包括但不限于:
1. 制定稳定性标准与度量体系
* 覆盖系统架构稳健性、研发质量、版本发布管理、⽣产环境运维等多个⽅⾯。
* 将稳定性理念深度融入阿里云技术研发体系。
2. 推动重大稳定性治理项目
* 包括全栈容灾、分阶段变更上线、1-5-10应急响应机制(1分钟告警、5分钟定位、10分钟恢复)、防资损等专项工作。
* 快速且持续地消除潜在稳定性风险。
3. 构建以稳定性为核心的工程技术平台
* 提供无人值守变更管理、红蓝攻防演练、应急协同、风险与漏洞巡检、监控告警等平台能力。
* 通过自动化和工具化手段简化稳定性工程实践。
4. 执行生产事件管理
* 包括应急响应、跨团队协作、根本原因分析、快速恢复业务、事后复盘推动系统性改进。
5. 保障大型客户活动的系统稳定运行
* 为奥运会等重大项目及客户业务高峰期提供技术和运维支持。
6. 应急响应
* 在服务等级协议(SLA)规定时限内响应客户问题,主动解决问题,提升客户体验。
职位要求
• 5年以上IT、互联网、云计算行业运维工作经验
• 研发项目管理经验
• 单产品研发安全生产执行者
• 能够在单产品/中型复杂系统层面推动建立完善的研发安全生产体系,并推动落地,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢
• 熟练掌握业内主流的研发安全生产技术体系
• 具有产品级、中型复杂系统的研发安全生产经验,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地
• 具备参与研发安全演练的技术能力,是容灾演练、红蓝对抗、突袭演练等场景下的一线主力
• 对本领域的技术趋势和演进有较为深入的了解;
• 熟练掌握架构设计、性能优化、稳定性优化等领域的专业能力
• 精通系统级需求,对所负责运维的产品/系统有较深刻的理解,能够在工作过程中结合现状,持续发现并分析当下问题,提出解决方案并推动落地拿到结果;
• 具备复杂项目管理、业务风险识别和管控能力,能够从技术、运营、风险、ROI等多方面进行分析,并提出切实解决方案
• 具备一定的业务线影响力和公信力,能够影响和协同跨团队的资源
• 具备智能化/自动化运维的理念,能够独立负责自动化运维工具/平台的开发工作
• 具备业务、技术及运维的全局视角,对日常运维指标、问题、风险进行分析和研究,通过建立模型预测风险并能形成解决方案并落地
• 具备良好的沟通与协作能力,能够深入理解客户业务场景,与客户SRE团队高效协同,共同推动其在阿里云上的稳定性体系建设;
• 联动内部技术服务团队,助力客户提升用云稳定性,强化客户对阿里云稳定性的认知与信任。
• 了解机器学习、深度学习和其他AI相关技术的基本原理,能够运用AI技术进行创造性思考,提出新的解决方案或改进现有流程的方法。
云平台SRE (Site Reliability Engineering) 团队的任务是确保阿里云生产环境的稳定性、企业级云数据的可靠性和业务连续性。挑战在于保证基于云的客户不间断的业务运营,并实现超过 99.99% 的可用性。
云平台SRE 团队的目标是建⽴一个技术与管理相结合的系统稳定性保障框架,包括但不限于:
1. 制定稳定性标准与度量体系
* 覆盖系统架构稳健性、研发质量、版本发布管理、⽣产环境运维等多个⽅⾯。
* 将稳定性理念深度融入阿里云技术研发体系。
2. 推动重大稳定性治理项目
* 包括全栈容灾、分阶段变更上线、1-5-10应急响应机制(1分钟告警、5分钟定位、10分钟恢复)、防资损等专项工作。
* 快速且持续地消除潜在稳定性风险。
3. 构建以稳定性为核心的工程技术平台
* 提供无人值守变更管理、红蓝攻防演练、应急协同、风险与漏洞巡检、监控告警等平台能力。
* 通过自动化和工具化手段简化稳定性工程实践。
4. 执行生产事件管理
* 包括应急响应、跨团队协作、根本原因分析、快速恢复业务、事后复盘推动系统性改进。
5. 保障大型客户活动的系统稳定运行
* 为奥运会等重大项目及客户业务高峰期提供技术和运维支持。
6. 应急响应
* 在服务等级协议(SLA)规定时限内响应客户问题,主动解决问题,提升客户体验。
职位要求
• 5年以上IT、互联网、云计算行业运维工作经验
• 研发项目管理经验
• 单产品研发安全生产执行者
• 能够在单产品/中型复杂系统层面推动建立完善的研发安全生产体系,并推动落地,保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢
• 熟练掌握业内主流的研发安全生产技术体系
• 具有产品级、中型复杂系统的研发安全生产经验,能够应对比较复杂的项目环境和各类突发状况,保障研发项目的平稳落地
• 具备参与研发安全演练的技术能力,是容灾演练、红蓝对抗、突袭演练等场景下的一线主力
• 对本领域的技术趋势和演进有较为深入的了解;
• 熟练掌握架构设计、性能优化、稳定性优化等领域的专业能力
• 精通系统级需求,对所负责运维的产品/系统有较深刻的理解,能够在工作过程中结合现状,持续发现并分析当下问题,提出解决方案并推动落地拿到结果;
• 具备复杂项目管理、业务风险识别和管控能力,能够从技术、运营、风险、ROI等多方面进行分析,并提出切实解决方案
• 具备一定的业务线影响力和公信力,能够影响和协同跨团队的资源
• 具备智能化/自动化运维的理念,能够独立负责自动化运维工具/平台的开发工作
• 具备业务、技术及运维的全局视角,对日常运维指标、问题、风险进行分析和研究,通过建立模型预测风险并能形成解决方案并落地
• 具备良好的沟通与协作能力,能够深入理解客户业务场景,与客户SRE团队高效协同,共同推动其在阿里云上的稳定性体系建设;
• 联动内部技术服务团队,助力客户提升用云稳定性,强化客户对阿里云稳定性的认知与信任。
• 了解机器学习、深度学习和其他AI相关技术的基本原理,能够运用AI技术进行创造性思考,提出新的解决方案或改进现有流程的方法。
2026-05-22 14:05
IP属地:浙江杭州
职位福利
本科5-10年

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
云计算实施工程师/专家
2.5-5万元/月
运维工程师5-10年硕士GolangDBA通信相关专业Ansible/Salt/Puppet系统运维运维开发经验运维开发/DevOps计算机相关专业Python/Shell电子/电气/自动化相关专业运维经
杭州 西湖区

方先生 · 阿里云5日内活跃








