职位详情
⼯作范围:
架构设计:结合业务需求,运用阿里云ARMS、OpenTelemetry、Prometheus、Grafana等可观测性技术,构建高可用、可量化的稳定性架构体系,覆盖系统健壮性、监控全链路覆盖及自动化响应机制,实现系统可靠性和敏捷交付的平衡。
稳定性体系建设:掌握高可用架构设计、容灾演练、变更管理与故障应急处理方法,主导全栈容灾、灰度发布、资金安全防护等关键专项,推进红蓝对抗演练、应急处置流程、风险巡检能力的实施。通过自动化平台建设,达成变更受控、故障可防、服务可快速恢复的稳定性工程闭环。
故障管理:负责突发事件响应,组织跨团队协同处置,开展根因分析,保障业务快速恢复,并主导事后复盘,推动系统性优化措施落地。
开发能力:熟练掌握至少1-2门编程语言,如Python、Java等,能够通过脚本开发提升可观测性平台的运行效率。
i.
ii.
iii.
iv.
⼯作经历:
c.
具备5年以上在金融、互联网或云服务商的工作经验,有可观测性系统或中间件产品实践经验,熟悉公共云环境者优先。
深入掌握架构设计、性能调优与系统稳定性保障核心技术,理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等工具的技术原理与实际应用场景,具备大规模落地实施经验。
在识别业务潜在风险时,能综合技术可行性、运营效率、成本投入与业务收益等因素,推动切实可行的优化方案落地。
具备系统的安全生产培训背景,拥有数据安全意识,对生产与非生产环境保持高度敬畏,严格执行安全操作规范。
架构设计:结合业务需求,运用阿里云ARMS、OpenTelemetry、Prometheus、Grafana等可观测性技术,构建高可用、可量化的稳定性架构体系,覆盖系统健壮性、监控全链路覆盖及自动化响应机制,实现系统可靠性和敏捷交付的平衡。
稳定性体系建设:掌握高可用架构设计、容灾演练、变更管理与故障应急处理方法,主导全栈容灾、灰度发布、资金安全防护等关键专项,推进红蓝对抗演练、应急处置流程、风险巡检能力的实施。通过自动化平台建设,达成变更受控、故障可防、服务可快速恢复的稳定性工程闭环。
故障管理:负责突发事件响应,组织跨团队协同处置,开展根因分析,保障业务快速恢复,并主导事后复盘,推动系统性优化措施落地。
开发能力:熟练掌握至少1-2门编程语言,如Python、Java等,能够通过脚本开发提升可观测性平台的运行效率。
i.
ii.
iii.
iv.
⼯作经历:
c.
具备5年以上在金融、互联网或云服务商的工作经验,有可观测性系统或中间件产品实践经验,熟悉公共云环境者优先。
深入掌握架构设计、性能调优与系统稳定性保障核心技术,理解阿里云ARMS、OpenTelemetry、Prometheus、Grafana等工具的技术原理与实际应用场景,具备大规模落地实施经验。
在识别业务潜在风险时,能综合技术可行性、运营效率、成本投入与业务收益等因素,推动切实可行的优化方案落地。
具备系统的安全生产培训背景,拥有数据安全意识,对生产与非生产环境保持高度敬畏,严格执行安全操作规范。
2026-06-26 13:41
IP属地:四川成都
职位福利
本科5-10年Docker运维开发/DevOpsKubernetes

浩鲸云计算科技股份有限公司
未融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
服务器硬件运维工程师
6000-8000元/月
运维工程师经验不限本科JavaPython/Shell系统运维计算机相关专业通信相关专业电子/电气/自动化相关专业
成都 锦江区
医院运维,底薪+另计算(值班费+餐补+奖金),六险一金
4000-6000元/月
运维工程师经验不限本科桌面运维网络运维系统运维计算机相关专业打印机/复印机维修经验
成都 武侯区 小天竺










