职位详情
工作范围:
架构设计:根据业务需求,结合阿里云ARMS、OpenTelemetry、Prometheus、Grafana等可观测性技术,构建高可用、可量化的稳定性架构体系,覆盖系统健壮性、监控完整性与自动化响应机制,达成稳定与效率的平衡。
稳定性体系建设:掌握高可用架构设计、容灾演练、变更管理及故障应急处理方法,主导全链路容灾、灰度发布、资金安全保障等关键专项,推进红蓝对抗演练、突发事件应对、风险巡检等能力的实际落地。通过自动化平台建设,实现变更受控、故障可防、服务可恢复的稳定性工程闭环。
故障管理:负责突发事件的快速响应,组织跨团队协同处置,开展根因分析,保障业务迅速恢复,并通过事后复盘推动系统性优化升级。
开发能力:熟练掌握至少1-2门编程语言,如Python、Java等,能够通过脚本开发提升可观测性平台的运行效率。
工作经历:
•具备5年以上在金融、互联网或云服务商的工作经验,拥有可观测性系统或中间件相关产品实践背景,具备公共云环境实践经验者优先。
•精通架构设计、性能调优与系统稳定性保障核心技术,深入理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等工具的技术架构与适用场景,具备大规模落地实施经验。
•在识别业务潜在风险时,能综合技术可行性、运营成本、投入产出比等因素,推动切实可行的改进方案落地。
•具备系统的安全生产培训经历,具有较强的数据安全意识,对生产与非生产环境保持高度敬畏。
架构设计:根据业务需求,结合阿里云ARMS、OpenTelemetry、Prometheus、Grafana等可观测性技术,构建高可用、可量化的稳定性架构体系,覆盖系统健壮性、监控完整性与自动化响应机制,达成稳定与效率的平衡。
稳定性体系建设:掌握高可用架构设计、容灾演练、变更管理及故障应急处理方法,主导全链路容灾、灰度发布、资金安全保障等关键专项,推进红蓝对抗演练、突发事件应对、风险巡检等能力的实际落地。通过自动化平台建设,实现变更受控、故障可防、服务可恢复的稳定性工程闭环。
故障管理:负责突发事件的快速响应,组织跨团队协同处置,开展根因分析,保障业务迅速恢复,并通过事后复盘推动系统性优化升级。
开发能力:熟练掌握至少1-2门编程语言,如Python、Java等,能够通过脚本开发提升可观测性平台的运行效率。
工作经历:
•具备5年以上在金融、互联网或云服务商的工作经验,拥有可观测性系统或中间件相关产品实践背景,具备公共云环境实践经验者优先。
•精通架构设计、性能调优与系统稳定性保障核心技术,深入理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等工具的技术架构与适用场景,具备大规模落地实施经验。
•在识别业务潜在风险时,能综合技术可行性、运营成本、投入产出比等因素,推动切实可行的改进方案落地。
•具备系统的安全生产培训经历,具有较强的数据安全意识,对生产与非生产环境保持高度敬畏。
2026-05-25 13:15
IP属地:四川成都
职位福利
本科5-10年Docker运维开发/DevOpsKubernetes

浩鲸云计算科技股份有限公司
未融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
云运维工程师
8000-12000元/月
运维工程师本科Ansible/Salt/PuppetNginxRedisDockerKubernetes桌面运维网络运维系统运维实施交付运维计算机相关专业运维经验
成都 武侯区

舒先生 · 四川灵序互动科技有限公司5日内活跃
阿里云运维工程师(外派阿联酋等地)
1.5-2万元/月
运维工程师5-10年学历不限Java阿里云云运维经验Docker运维开发/DevOpsPython/Shell计算机相关专业多账号设计Kubernetes云采用框架
成都 武侯区

蒋女士 · Eviden艾维登5日内活跃








