职位详情
1)承担阿里云AI人工智能平台(PAI)的运维职责,构建超大规模GPU集群的稳定保障体系,涵盖可观测性链路建设、监控告警机制、故障响应与处理、SLA可用性指标优化等方面
2)开发AI运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点的快速交付与自愈能力、智能诊断与问题定界等核心功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及基于大模型与智能体Agent的运维场景落地
4)主导稳定性架构的设计与项目推进,推动基础架构向云原生演进,实施跨AZ高可用方案,持续优化产品可运维性架构
2)开发AI运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点的快速交付与自愈能力、智能诊断与问题定界等核心功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及基于大模型与智能体Agent的运维场景落地
4)主导稳定性架构的设计与项目推进,推动基础架构向云原生演进,实施跨AZ高可用方案,持续优化产品可运维性架构
2026-05-27 13:23
IP属地:浙江杭州
职位福利
本科3-5年ElasticsearchMySQL/OracleDocker运维开发/DevOpsPython/Shell计算机相关专业大数据产品运维AI运维Kubernetes

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










