搜索
登录注册

职位详情

岗位名称:
岗位职责:
1、负责设计并实施集群自动化部署方案,构建完整的监控体系,支持弹性伸缩与容灾备份机制。
2、推进GPU/NPU资源池化建设,主导核心调度能力的研发与落地。
3、牵头异构计算资源调度系统的开发工作,重点围绕K8s调度框架进行定制化开发与功能升级。
4、构建面向GPU/NPU算力的资源管理平台,集成监控告警、日志采集分析及成本计量模块,实现集群从部署到退役的全流程可视化管控。
5、研发或引入高效工具链,提升算力资源的动态分配与负载均衡能力,减少任务等待时间,提高集群整体吞吐效率。
6、结合GPU/NPU硬件特性,对深度学习模型的训练与推理流程开展性能剖析与优化,涵盖CUDA内核调优、算子加速及内存访问效率提升等方面。
7、优化RDMA网络资源配置与流量控制策略,有效应对多任务并发引发的PFC风暴问题。
8、支撑大规模深度学习训练任务运行,持续优化模型在集群中的资源分配逻辑。
9、快速排查并处理集群中硬件(如GPU/NPU卡异常)、网络、存储及软件栈层面的各种故障,包括显存泄漏、通信阻塞等关键问题。
10、以上能力满足5项及以上者优先考虑。

任职要求:
1、具备5年以上相关经验,有大型AI算力集群(GPU/NPU)运维或开发背景,具备实际AI训练/推理项目落地经验。
2、熟练掌握K8s/Docker等容器技术;
3、深刻理解GPU/NPU架构原理(如CUDA、TensorCore、RDMA等),熟悉PyTorch/TensorFlow等框架的分布式训练机制;
4、具有系统性能调优实践,熟练使用各类Profiling分析工具;
5、熟悉Prometheus/Grafana/ELK等主流监控组件,能独立编写Python/Shell自动化运维脚本;
6、了解主流GPU/NPU厂商硬件特点,有AI算力成本优化实践经验(如混合精度训练、显存压缩)者优先;
7、具备出色的逻辑思维与故障排查能力,能在高压环境下高效处理紧急问题,具备良好的团队协作意识和跨部门沟通能力,有技术文档撰写和技术分享习惯;
8、加分项:掌握InfiniBand/RoCE等高性能网络协议
2026-06-26 12:44
IP属地:河南郑州

职位福利

本科10年以上
企业发布信息图
中移系统集成有限公司
不需要融资 · 1000-9999人
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

AI算法工程师
1.5-2万元/月
算法工程师3-5年大专深度学习大模型算法通信算法Python性能优化模型加速
郑州 金水区
AI算法工程师(AIGC方向)+长期项目/甲方团队
1.2-1.5万元/月
算法工程师3-5年大专AI算法LANGCHAINLANGRAPHRAGFLOW
郑州 金水区
AI算法工程师 (AIGC方向/ComfyUI)
1.8-2.5万元/月
算法工程师3-5年本科图片/图像生成COMFYUI文生图图生图批量出图PythonLANGCHAIN
郑州 金水区
AIGC算法研发工程师
1.4-2万元/月
算法工程师5-10年本科深度学习多模态算法大模型算法
郑州 金水区
算法工程师(校园招聘)
1.5-2.5万元/月
算法工程师经验不限硕士机器学习运筹优化算法大数据处理框架(Spark/Hadoop/Hive)算法工程化经验优秀开源项目经历推荐算法Python
郑州 金水区
算法研发工程师
2-4万元/月
算法工程师经验不限硕士C/C++机器学习运筹优化算法深度学习大模型算法算法工程化经验强化学习Python
郑州 金水区
算法工程师(运筹优化方向)
3-5万元/月
算法工程师3-5年本科运筹优化算法大模型算法大数据处理框架(Spark/Hadoop/Hive)算法工程化经验推荐算法
郑州 金水区
算法研发工程师
2-4万元/月
算法工程师3-5年本科Java搜索算法机器学习运筹优化算法深度学习算法工程化经验广告算法优秀开源项目经历推荐算法PythonSQL
郑州 金水区
算法研发工程师
2-4万元/月
算法工程师3-5年本科Java搜索算法机器学习运筹优化算法深度学习算法工程化经验广告算法优秀开源项目经历推荐算法PythonSQL
郑州 金水区
算法研发工程师
2-4万元/月
算法工程师3-5年本科Java搜索算法机器学习运筹优化算法深度学习算法工程化经验广告算法优秀开源项目经历推荐算法PythonSQL
郑州 金水区