搜索
登录注册

职位详情

职位描述
1)承担阿里云AI人工智能平台(PAI)的运维保障任务,构建超大规模GPU集群的稳定性体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等方面
2)开发AI运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速交付与自愈、智能诊断与问题定界等功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性能力,覆盖异常行为识别、根因分析以及基于大模型与智能体Agent的运维场景落地
4)主导稳定性架构设计并推动重点项目实施,涉及基础架构云原生转型、跨AZ高可用方案设计、产品可运维性架构持续演进等工作

职位要求
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统运行机制及Linux底层原理,拥有AI IaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练使用Golang/Python/Java中至少一门编程语言,有运维平台类系统开发经历,具备AIOps智能运维实践经验者更佳
3)具有扎实的生产环境稳定性保障实战经验,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈机制等
4)具备良好的沟通协调能力和项目推动力,工作态度认真细致,抗压能力强,富有责任心
2026-05-22 14:00
IP属地:浙江杭州

职位福利

本科3-5年JavaaiPAI运维开发大数据
企业发布信息图
阿里云计算有限公司
不需要融资 · 10000人以上
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

大数据运维工程师
3-6万元/月
运维开发工程师3-5年本科运维开发系统运维数据架构
杭州 西湖区
阿里云智能-云平台运维专家--杭州
2-4万元/月
运维开发工程师5-10年本科GolangJava运维开发经验自动化运维Python/Shell
杭州 西湖区
阿里云智能-云平台运维工程师-杭州
1.5-3万元/月
运维开发工程师3-5年本科Golang运维开发经验Python/Shell计算机相关专业
杭州 西湖区
客户稳定性工程师CRE【运维开发】
2.5-5万元/月
运维开发工程师3-5年本科Java大数据运维经验Hadoop运维开发经验计算机相关专业Kubernetes
杭州 西湖区
开源大数据运维工程师SRE
3-6万元/月
运维开发工程师5-10年本科Elasticsearch大数据运维经验HadoopK8S运维运维开发经验Flink运维Spark计算机相关专业大数据运维Hadoop运维Kubernetes
杭州 西湖区
大数据运维开发工程师
3-4万元/月
运维开发工程师3-5年本科大数据运维经验Hadoopk8s运维开发经验AI计算机相关专业GPUKubernetes
杭州 西湖区
AI智能计算运维
3-6万元/月
运维开发工程师3-5年本科GolangGPU运维大数据SREDevOpsK8S运维SRE运维开发经验计算机相关专业Kubernetes
杭州 西湖区
云原生运维开发工程师(杭州无限光年现场派驻)
1.5-1.7万元/月
运维开发工程师3-5年本科CCNA/CCNPDocker运维开发经验Python/Shell计算机相关专业Kubernetes
杭州 西湖区
存储运维系统开发专家
3-5万元/月
运维开发工程师5-10年本科通信/工程相关专业Golang运维开发经验计算机相关专业Python/Shell
杭州 西湖区
通义SRE运维开发专家-大型推理服务-
2.5-5万元/月
运维开发工程师3-5年本科运维开发经验
杭州 西湖区