搜索
登录注册

职位详情

岗位职责:
1、规划并实施集群自动化部署方案,构建覆盖监控、弹性伸缩与容灾机制的全链路管理体系。
2、推进GPU/NPU资源池化建设,完成核心调度能力的研发与落地。
3、主导异构计算资源调度系统的开发工作,聚焦于K8s调度框架的功能拓展与持续迭代。
4、构建GPU/NPU算力资源管理平台,健全监控告警、日志采集与成本计量机制,实现集群从创建到退役的可视化管控。
5、研发或集成高效工具链,支持算力资源的动态分配与负载均衡,减少任务等待时间,提升集群吞吐能力。
6、结合GPU/NPU硬件特性,对深度学习模型训练与推理流程进行端到端性能剖析与优化,涵盖CUDA内核调优、算子加速及内存带宽提升等方向。
7、优化RDMA网络资源配置与流量控制策略,应对多任务并发下的PFC风暴挑战。
8、支撑深度学习训练任务运行,改进模型资源分配逻辑以提升利用率。
9、快速排查并处理集群中硬件(如GPU/NPU卡异常)、网络、存储及软件栈层面的各类故障,包括显存泄漏、通信阻塞等关键问题。
10、满足上述能力中5项及以上者优先考虑。

任职要求:
1、具备5年以上相关经验,有大规模GPU/NPU算力集群运维或开发背景,具备AI训练/推理实际项目经历。
2、熟练掌握K8s/Docker等容器技术
3、深刻理解GPU/NPU体系结构(如CUDA、TensorCore、RDMA等),熟悉PyTorch/TensorFlow等框架的分布式训练机制;
4、具有系统性能调优实践,能熟练使用Profiling分析工具;
5、熟悉Prometheus/Grafana/ELK等监控生态,可编写Python/Shell脚本实现自动化操作。
6、了解主流GPU/NPU厂商硬件规格,具备AI算力成本优化经验(如混合精度训练、显存压缩)者优先。
7、具备出色的逻辑思维与故障排查能力,能在高压环境下高效响应紧急问题,具备良好的团队协作与跨团队沟通能力,有撰写技术文档和技术分享的习惯。
8、加分项:掌握 InfiniBand/RoCE 等高性能网络协议
2026-06-06 13:24
IP属地:陕西西安

职位福利

本科3-5年PythonShell负载均衡技术容器技术Go微服务架构SpringBootSpring
企业发布信息图
中移系统集成有限公司
不需要融资 · 1000-9999人
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

新业务部-软件架构师(内存与存储方向)
3.5-6万元/月
架构师5-10年本科
西安 雁塔区
架构师
1.5-3万元/月
架构师5-10年本科分布式技术平台架构
西安 雁塔区
阿里云智能-公共云解决方案架构师-西安
3-5.5万元/月
架构师3-5年本科JavaPHPPythonGo
西安 雁塔区
系统架构师
1.8-3万元/月
架构师5-10年本科Java微服务架构分布式技术SpringBoot容器技术平台架构数据结构
西安 雁塔区
系统架构师
1.8-3万元/月
架构师5-10年本科Java微服务架构分布式技术SpringBoot容器技术平台架构数据结构
西安 雁塔区
架构师
1.5-3万元/月
架构师5-10年本科分布式技术平台架构
西安 雁塔区
企业架构师
5-6万元/月
架构师5-10年本科
西安 雁塔区
系统架构师
1.8-2.5万元/月
架构师5-10年本科
西安 雁塔区
云平台架构师
1.5-3万元/月
架构师3-5年本科Java负载均衡技术虚拟机技术微服务架构分布式技术容器技术SpringPython
西安 雁塔区
系统架构师
1.8-2.4万元/月
架构师5-10年本科Java微服务架构平台架构大模型AI
西安 雁塔区