职位详情
产品范围:阿里公共云的云原生可观测性产品线及中间件相关产品,包括日志、监控、告警、消息队列等,具备扎实的可观测体系建设实践,并拥有一定的SRE实战背景,在高可用架构设计、容灾演练、变更管控、故障处理等方面有深入理解;SRE-稳定性工程师(中级1人):承担阿里公共云稳定性架构方案的实施与日常运维保障工作。
工作范围:
架构设计:结合具体业务需求,综合运用阿里云ARMS、OpenTelemetry、Prometheus、Grafana等观测工具,构建高可用、可量化评估的稳定性技术架构,覆盖系统健壮性、监控全面性与自动化响应机制,达成系统可靠性与交付效率的平衡。
稳定性体系建设:掌握高可用架构设计原则,熟悉容灾演练流程、变更管理规范与故障应急机制,主导全链路容灾、灰度发布、资金安全防护等关键专项治理,推进红蓝对抗演练、突发事件响应、风险排查等能力的实际落地。通过自动化平台建设,实现变更受控、故障可防、服务可恢复的稳定性工程闭环管理。
故障管理:参与应急处置,协调多方团队联动,开展根因分析,快速恢复业务运行,并组织复盘推动系统层面优化改进。
开发能力:熟练掌握至少1-2种编程语言,如Python、Java等,能以脚本方式提升可观测平台的运维效率。
具备扎实的架构设计、性能调优与系统稳定性保障能力,深入理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等观测工具的技术架构与适用场景,具有丰富的实际应用经验。
在识别业务潜在风险方面有一定判断力,能够综合技术可行性、运营成本、投入产出等因素,推动切实可行的优化方案落地。具备系统的安全生产培训经历,具有较强的数据安全意识,对生产环境与非生产环境保持严谨态度与敬畏之心
工作范围:
架构设计:结合具体业务需求,综合运用阿里云ARMS、OpenTelemetry、Prometheus、Grafana等观测工具,构建高可用、可量化评估的稳定性技术架构,覆盖系统健壮性、监控全面性与自动化响应机制,达成系统可靠性与交付效率的平衡。
稳定性体系建设:掌握高可用架构设计原则,熟悉容灾演练流程、变更管理规范与故障应急机制,主导全链路容灾、灰度发布、资金安全防护等关键专项治理,推进红蓝对抗演练、突发事件响应、风险排查等能力的实际落地。通过自动化平台建设,实现变更受控、故障可防、服务可恢复的稳定性工程闭环管理。
故障管理:参与应急处置,协调多方团队联动,开展根因分析,快速恢复业务运行,并组织复盘推动系统层面优化改进。
开发能力:熟练掌握至少1-2种编程语言,如Python、Java等,能以脚本方式提升可观测平台的运维效率。
具备扎实的架构设计、性能调优与系统稳定性保障能力,深入理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等观测工具的技术架构与适用场景,具有丰富的实际应用经验。
在识别业务潜在风险方面有一定判断力,能够综合技术可行性、运营成本、投入产出等因素,推动切实可行的优化方案落地。具备系统的安全生产培训经历,具有较强的数据安全意识,对生产环境与非生产环境保持严谨态度与敬畏之心
2026-05-17 14:52
IP属地:四川成都
职位福利
本科5-10年

浩鲸云计算科技股份有限公司
未融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










