职位详情
职位描述:
1)负责阿里云AI人工智能平台(PAI)的运维保障,构建超大规模GPU集群的稳定性体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等工作
2)开发AI方向的运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速部署与自愈能力、智能诊断与问题定界等功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及大模型与智能体Agent在运维场景中的落地应用
4)主导稳定性架构的设计与实施,推动相关项目落地,包括基础架构向云原生演进、跨可用区高可用架构设计、产品可运维性架构升级等
职位要求:
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统运行机制及Linux底层原理,有AI IaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练掌握Golang/Python/Java中至少一门编程语言,具有运维平台类系统开发经历,具备AIOps智能运维实践经验者更佳
3)拥有实际参与稳定性保障和生产安全运营的经验,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈技术等
4)具备良好的沟通协调能力和项目推动力,工作认真细致,抗压能力强,具备较强的责任心与执行力
1)负责阿里云AI人工智能平台(PAI)的运维保障,构建超大规模GPU集群的稳定性体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等工作
2)开发AI方向的运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速部署与自愈能力、智能诊断与问题定界等功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及大模型与智能体Agent在运维场景中的落地应用
4)主导稳定性架构的设计与实施,推动相关项目落地,包括基础架构向云原生演进、跨可用区高可用架构设计、产品可运维性架构升级等
职位要求:
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统运行机制及Linux底层原理,有AI IaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练掌握Golang/Python/Java中至少一门编程语言,具有运维平台类系统开发经历,具备AIOps智能运维实践经验者更佳
3)拥有实际参与稳定性保障和生产安全运营的经验,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈技术等
4)具备良好的沟通协调能力和项目推动力,工作认真细致,抗压能力强,具备较强的责任心与执行力
2026-06-29 12:31
IP属地:浙江杭州
职位福利
本科3-5年

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >









