职位详情
职位描述
部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供先进的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。
云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。
云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于:
1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系
2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛
3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单
4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进
5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障
岗位职责:
1. 管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。
2. 负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。
3. 主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。
4. 结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。
5. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验
职位要求
1. 3年以上云计算\IT厂商相关工作经验,运维\研发测试\售后技术支持\技术咨询等方向,对以下一个或多个云计算产品领域有深入的理解:计算、存储、网络、数据库等。
2. 对云计算业务运维保障管理有丰富的实战经验,如复杂业务场景下的流程优化和过程改进、系统的高可用性架构实现、组织的稳定性意识提升等。
3. 对问题有清晰的分析逻辑和全局思维,能提出具有创造性的解决思路和方案,善于学习新技术。
4. 有良好的沟通能力和结构化表达能力、能主动观察与了解被沟通对象的想法与诉求,高效沟通,尽量避免冲突并达成共识;能主导跨部门复杂业务沟通,并达成共识、协作完成结果;能并行处理多项工作,快速学习能力强。
优先条件:
1. 有ITIL认证,有ITIL体系实践经验,有体系化思维能力;
2. 有AWS、Azure等云计算的稳定性保障经验或了解;
3. 有项目管理经验优先,能独立主导跨业务的复杂项目落地,具备独立项目的规划能力;
4.有大模型ACA认证,能够利用AI辅助提升工作效率。
部门介绍:云智能集团承载着阿里巴巴集团在高科技领域的核心技术和业务创新,致力于构建数字经济时代的企业级云计算服务平台,并且在全球范围内提供先进的技术解决方案和服务,具备超大业务规模以及复杂的企业级云计算服务。
云智能集团SRE团队的使命是保障云智能集团生产环境的稳定性以及企业级云计算数据可靠性,服务连续性。如何保障云上客户的业务连续运行以及不止于99.99%的可用性,是我们面临的巨大挑战。
云智能集团SRE团队的目标是建立技术和管理结合的体系化稳定性保障体系,包括但不局限于:
1.制定稳定性规范和度量,如涵盖健壮性架构、研发质量、发布变更、生产环境运行管理等方面,把稳定性贯彻到阿里云技术研发体系
2.推动开展稳定性架构治理重大战役,如全栈容灾,变更灰度,应急1-5-10,资损防控等战役,将稳定性风险快速持续收敛
3.构建稳定性技术中台,无人值守变更,红蓝攻防,应急协同,风险隐患巡检,监控发现等方面建设平台化能力,让稳定性工程更简单
4.应急处置生产环境故障,应急响应,处置协同,故障定位,故障恢复,故障复盘改进
5.通过技术和服务全方位保障客户业务的大型活动稳定性保障,如淘天集团双11,亚运会、奥运会以及客户业务关键期保障
岗位职责:
1. 管理阿里云产品及系统的所有技术类故障,日常支持包括应急响应、协同调度、复盘改进等故障全生命周期管理,持续优化该管理体系的质量、效率、成本,提升整体服务品质。
2. 负责设计、落地各类云业务的运维保障解决方案,包含但不局限于:线上问题管理、全维度全链路的监控管理、线上生产变更管理、故障容灾演练管理、大促重大活动管理以及稳定性文化建设。
3. 主导并推进标准运维保障解决方案的落地工作,提升服务效率,实现高效自动化且可扩展的技术服务运行模式。
4. 结合运维保障解决方案在阿里云的落地经验,梳理提炼形成云上用户的标准运维保障解决方案,独立服务某领域的解决方案设计和建设,并持续化落地优化。
5. 该职位涉及值班响应的职责,在服务级别协议(SLA)时间内做出对客响应,推动客户问题的解决,改善客户体验
职位要求
1. 3年以上云计算\IT厂商相关工作经验,运维\研发测试\售后技术支持\技术咨询等方向,对以下一个或多个云计算产品领域有深入的理解:计算、存储、网络、数据库等。
2. 对云计算业务运维保障管理有丰富的实战经验,如复杂业务场景下的流程优化和过程改进、系统的高可用性架构实现、组织的稳定性意识提升等。
3. 对问题有清晰的分析逻辑和全局思维,能提出具有创造性的解决思路和方案,善于学习新技术。
4. 有良好的沟通能力和结构化表达能力、能主动观察与了解被沟通对象的想法与诉求,高效沟通,尽量避免冲突并达成共识;能主导跨部门复杂业务沟通,并达成共识、协作完成结果;能并行处理多项工作,快速学习能力强。
优先条件:
1. 有ITIL认证,有ITIL体系实践经验,有体系化思维能力;
2. 有AWS、Azure等云计算的稳定性保障经验或了解;
3. 有项目管理经验优先,能独立主导跨业务的复杂项目落地,具备独立项目的规划能力;
4.有大模型ACA认证,能够利用AI辅助提升工作效率。
2026-05-20 14:27
IP属地:浙江杭州
职位福利
本科3-5年故障管理监控管理稳定性保障风险管理计算机相关专业运维经验变更管理

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
技术支持工程师
6000-9000元/月
运维工程师3-5年本科软件实施HIS软件MySQLOracle医疗软件LISSQL ServerJavaPythonShell医疗软件实施运维
杭州 西湖区

张先生 · 艾康生物3日内活跃
运维工程师(中高级)
1.3-2.5万元/月
运维工程师1-3年本科网络运维JavaDBA运维开发/DevOps桌面运维Python/Shell计算机相关专业运维经验DockerMySQL/Oracle系统运维运维开发经验Kubernetes
杭州 西湖区

方女士 · 诚云科技5日内活跃
运维工程师(中高级)
1.3-2.5万元/月
运维工程师1-3年本科网络运维JavaDBA运维开发/DevOps桌面运维Python/Shell计算机相关专业运维经验DockerMySQL/Oracle系统运维运维开发经验Kubernetes
杭州 西湖区

方女士 · 诚云科技5日内活跃
售后技术支撑工程师
1.5-2.5万元/月
运维工程师售后技术支持1-3年本科GolangJava实施交付运维Docker客户沟通运维开发/DevOpsPython/Shell计算机相关专业运维经验Kubernetes
杭州 西湖区

方女士 · 诚云科技5日内活跃







