云平台SRE-杭州

4-6万元/月

杭州·西湖区

方先生

已实名

企业认证

阿里云计算有限公司

职位详情

运维工程师

职位描述
云平台SRE （Site Reliability Engineering）团队的任务是确保阿里云生产环境的稳定性、企业级云数据的可靠性和业务连续性。挑战在于保证基于云的客户不间断的业务运营，并实现超过 99.99% 的可用性。
云平台SRE 团队的目标是建⽴一个技术与管理相结合的系统稳定性保障框架，包括但不限于：
1. 制定稳定性标准与度量体系
* 覆盖系统架构稳健性、研发质量、版本发布管理、⽣产环境运维等多个⽅⾯。
* 将稳定性理念深度融入阿里云技术研发体系。
2. 推动重大稳定性治理项目
* 包括全栈容灾、分阶段变更上线、1-5-10应急响应机制（1分钟告警、5分钟定位、10分钟恢复）、防资损等专项工作。
* 快速且持续地消除潜在稳定性风险。
3. 构建以稳定性为核心的工程技术平台
* 提供无人值守变更管理、红蓝攻防演练、应急协同、风险与漏洞巡检、监控告警等平台能力。
* 通过自动化和工具化手段简化稳定性工程实践。
4. 执行生产事件管理
* 包括应急响应、跨团队协作、根本原因分析、快速恢复业务、事后复盘推动系统性改进。
5. 保障大型客户活动的系统稳定运行
* 为奥运会等重大项目及客户业务高峰期提供技术和运维支持。
6. 应急响应
* 在服务等级协议（SLA）规定时限内响应客户问题，主动解决问题，提升客户体验。

职位要求
• 5年以上IT、互联网、云计算行业运维工作经验
• 研发项目管理经验
• 单产品研发安全生产执行者
• 能够在单产品/中型复杂系统层面推动建立完善的研发安全生产体系，并推动落地，保障相关产品/技术/系统的可容灾、可观测、可处置、可运维、可快恢
• 熟练掌握业内主流的研发安全生产技术体系
• 具有产品级、中型复杂系统的研发安全生产经验，能够应对比较复杂的项目环境和各类突发状况，保障研发项目的平稳落地
• 具备参与研发安全演练的技术能力，是容灾演练、红蓝对抗、突袭演练等场景下的一线主力
• 对本领域的技术趋势和演进有较为深入的了解；
• 熟练掌握架构设计、性能优化、稳定性优化等领域的专业能力
• 精通系统级需求，对所负责运维的产品/系统有较深刻的理解，能够在工作过程中结合现状，持续发现并分析当下问题，提出解决方案并推动落地拿到结果；
• 具备复杂项目管理、业务风险识别和管控能力，能够从技术、运营、风险、ROI等多方面进行分析，并提出切实解决方案
• 具备一定的业务线影响力和公信力，能够影响和协同跨团队的资源
• 具备智能化/自动化运维的理念，能够独立负责自动化运维工具/平台的开发工作
• 具备业务、技术及运维的全局视角，对日常运维指标、问题、风险进行分析和研究，通过建立模型预测风险并能形成解决方案并落地
• 具备良好的沟通与协作能力，能够深入理解客户业务场景，与客户SRE团队高效协同，共同推动其在阿里云上的稳定性体系建设；
• 联动内部技术服务团队，助力客户提升用云稳定性，强化客户对阿里云稳定性的认知与信任。
• 了解机器学习、深度学习和其他AI相关技术的基本原理，能够运用AI技术进行创造性思考，提出新的解决方案或改进现有流程的方法。

2026-07-11 12:27

IP属地：浙江杭州

职位福利

本科5-10年