职位详情
职位描述
1)承担阿里云AI人工智能平台(PAI)的运维保障任务,构建超大规模GPU集群的稳定性体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等方面
2)开发AI运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速交付与自愈、智能诊断与问题定界等功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性能力,覆盖异常行为识别、根因分析以及基于大模型与智能体Agent的运维场景落地
4)主导稳定性架构设计并推动重点项目实施,涉及基础架构云原生转型、跨AZ高可用方案设计、产品可运维性架构持续演进等工作
职位要求
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统运行机制及Linux底层原理,拥有AI IaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练使用Golang/Python/Java中至少一门编程语言,有运维平台类系统开发经历,具备AIOps智能运维实践经验者更佳
3)具有扎实的生产环境稳定性保障实战经验,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈机制等
4)具备良好的沟通协调能力和项目推动力,工作态度认真细致,抗压能力强,富有责任心
1)承担阿里云AI人工智能平台(PAI)的运维保障任务,构建超大规模GPU集群的稳定性体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等方面
2)开发AI运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速交付与自愈、智能诊断与问题定界等功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性能力,覆盖异常行为识别、根因分析以及基于大模型与智能体Agent的运维场景落地
4)主导稳定性架构设计并推动重点项目实施,涉及基础架构云原生转型、跨AZ高可用方案设计、产品可运维性架构持续演进等工作
职位要求
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统运行机制及Linux底层原理,拥有AI IaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练使用Golang/Python/Java中至少一门编程语言,有运维平台类系统开发经历,具备AIOps智能运维实践经验者更佳
3)具有扎实的生产环境稳定性保障实战经验,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈机制等
4)具备良好的沟通协调能力和项目推动力,工作态度认真细致,抗压能力强,富有责任心
2026-05-22 14:00
IP属地:浙江杭州
职位福利
本科3-5年JavaaiPAI运维开发大数据

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
开源大数据运维工程师SRE
3-6万元/月
运维开发工程师5-10年本科Elasticsearch大数据运维经验HadoopK8S运维运维开发经验Flink运维Spark计算机相关专业大数据运维Hadoop运维Kubernetes
杭州 西湖区

方先生 · 阿里云5日内活跃
AI智能计算运维
3-6万元/月
运维开发工程师3-5年本科GolangGPU运维大数据SREDevOpsK8S运维SRE运维开发经验计算机相关专业Kubernetes
杭州 西湖区

张先生 · 阿里云5日内活跃
云原生运维开发工程师(杭州无限光年现场派驻)
1.5-1.7万元/月
运维开发工程师3-5年本科CCNA/CCNPDocker运维开发经验Python/Shell计算机相关专业Kubernetes
杭州 西湖区

宋先生 · 上海比冲信息科技有限责任公司5日内活跃


