搜索
登录注册

职位详情

职位描述:
1)负责阿里云AI人工智能平台(PAI)的运维保障,构建超大规模GPU集群的稳定性支撑体系,涵盖可观测性链路建设、监控告警机制、故障应急响应与处理、SLA可用性指标优化等

2)开发AI方向的运维管控系统,借助自动化手段提升运维效能,实现交付与变更的CICD流程、GPU节点的快速纳管与自愈能力、智能诊断与问题定界等功能

3)推进AIOps智能运维实践,运用AI算法增强系统稳定性能力,覆盖异常行为识别、根因分析以及基于大模型与智能体Agent的运维场景落地

4)主导稳定性架构的技术规划与项目推进,推动基础架构云原生演进、跨AZ容灾设计、产品可维护性架构升级等关键技术实施

职位要求:
1)具备3年以上K8S或主流大数据平台运维经验,掌握分布式系统工作机制及Linux底层原理,有AI IaaS&PaaS平台或GPU集群运维开发背景者优先考虑

2)熟练使用Golang/Python/Java中至少一种编程语言,具备运维平台类系统开发经历,拥有AIOps相关实践经验者更佳

3)具有扎实的生产环境稳定性建设实战能力,熟悉高可用架构设计、监控可观测体系、故障应急流程、SLA与可用率管理、节点级自愈机制等关键环节

4)具备良好的沟通协调能力和项目推动力,工作认真细致,抗压能力强,富有责任心
2026-02-21 14:14
IP属地:北京

职位福利

本科及以上3-5年Golang大数据引擎Java大数据运维经验Python/Shell
企业发布信息图
阿里云计算有限公司
· 6人以上
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

容器SRE平台技术专家
3-6万元/月
运维开发工程师5-10年本科及以上GolangCCNA/CCNPCCIEDockerHCIE运维开发经验HCNA/HCNP计算机相关专业ITILKubernetes
北京 朝阳区
中级运维开发工程师
7000-12000元/月
运维开发工程师3-5年本科及以上Java运维开发经验
北京 朝阳区
大数据运维工程师SRE
3-6万元/月
运维开发工程师经验不限本科及以上Elasticsearch大数据运维经验HadoopK8S运维SREFlink运维Spark大数据运维Hadoop运维Kubernetes
北京 朝阳区
IT运维工程师(含部分自动化开发职责)
1.1-1.8万元/月
运维开发工程师3-5年本科及以上DockerZabbix/Prometheus运维开发经验Python/Shell计算机相关专业
北京 朝阳区
大数据运维工程师
1-1.3万元/月
运维开发工程师3-5年本科及以上MongoDBLinuxHive
北京 朝阳区
运维开发工程师
1.1-1.8万元/月
运维开发工程师3-5年本科及以上DockerZabbix/Prometheus运维开发经验Python/Shell计算机相关专业
北京 朝阳区
专有云架构稳定性专家
3-5万元/月
运维开发工程师10年以上本科及以上GolangDocker大数据运维经验运维开发经验计算机相关专业Kubernetes
北京 朝阳区
AI智能计算运维
3-6万元/月
运维开发工程师经验不限本科及以上GolangGPU运维大数据SREK8S运维运维开发经验Python/Shell计算机相关专业AI运维大数据运维Kubernetes
北京 朝阳区
诚云科技-云智能集团子公司(阿里巴巴)C
1.4-2万元/月
运维开发工程师3-5年本科及以上CCIE大数据运维经验HCIEHadoopMySQL
北京 朝阳区
阿里集团/阿里云政企事业部客户关系拓展
3-4万元/月
运维开发工程师5-10年本科及以上JavaHCIEMySQL运维开发经验HCNA/HC
北京 朝阳区