搜索
登录注册

职位详情

职位描述:
1)负责阿里云AI人工智能平台(PAI)的运维保障,构建超大规模GPU集群的稳定性体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用率评估与优化等工作
2)开发AI方向的运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点快速部署与自愈能力、智能诊断与问题定界等功能
3)推进AIOps智能运维实践,运用AI算法增强系统稳定性,覆盖异常行为识别、根因分析以及大模型与智能体Agent在运维场景中的落地应用
4)主导稳定性架构的设计与实施,推动相关项目落地,包括基础架构向云原生演进、跨可用区高可用架构设计、产品可运维性架构升级等

职位要求:
1)具备3年以上K8S或主流大数据引擎运维经验,掌握分布式系统运行机制及Linux底层原理,有AI IaaS&PaaS平台或GPU集群运维开发背景者优先
2)熟练掌握Golang/Python/Java中至少一门编程语言,具有运维平台类系统开发经历,具备AIOps智能运维实践经验者更佳
3)拥有实际参与稳定性保障和生产安全运营的经验,熟悉高可用架构设计、可观测性与监控体系、异常事件处置流程、SLA与可用率管理、节点自愈技术等
4)具备良好的沟通协调能力和项目推动力,工作认真细致,抗压能力强,具备较强的责任心与执行力
2026-06-29 12:31
IP属地:浙江杭州

职位福利

本科3-5年
企业发布信息图
阿里云计算有限公司
不需要融资 · 10000人以上
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

阿里云智能-运维技术专家-杭州
3-6万元/月
运维工程师5-10年本科系统运维运维开发/DevOps
杭州 西湖区
高级大数据运维工程师
2-3.5万元/月
运维工程师1-3年本科通信相关专业系统运维运维开发/DevOps运维开发经验计算机相关专业运维经验Kubernetes
杭州 西湖区
华为云大数据运维工程师(DGC、MRS、
1.3-1.7万元/月
运维工程师3-5年本科
杭州 西湖区
阿里云-杭州-数据中心暖通运维专家
2.5-5万元/月
运维工程师5-10年本科运维经验IDC机房运维
杭州 西湖区
接维专员(数据中心)
1.5-1.8万元/月
运维工程师3-5年大专接维管理数据中心全生命周期管理数据中心暖通测试
杭州 西湖区
阿里云-杭州-数据中心IT运维技术平台
2-4万元/月
运维工程师5-10年本科通信相关专业计算机相关专业电子/电气/自动化相关专业网络安全相关经验运维经验IDC机房运维
杭州 西湖区
阿里云智能-数据中心IT交付专家-杭州
2.5-4万元/月
运维工程师5-10年本科
杭州 西湖区
运维工程师
5000-7000元/月
运维工程师1-3年本科
杭州 西湖区
运维工程师
1.1-1.2万元/月
运维工程师3-5年本科MySQL/Oracle系统运维运维开发经验Python/Shell应用系统运维
杭州 西湖区
运维工程师
2-4万元/月
运维工程师3-5年本科通信相关专业运维计算机相关专业运维经验云计算
杭州 西湖区