职位详情
岗位职责:
- 负责AI集群计算性能的分析与调优,定位系统瓶颈并实施优化策略
- 负责提升GPU内核运行效率,优化CUDA内核设计、显存访问方式及GPU流水线调度
- 负责多节点多卡环境下分布式通信库的性能调优,推进计算与通信的重叠优化
任职要求:
- 4年及以上AI集群计算性能调优相关工作经验
- 熟悉主流AI计算框架在计算、编译及通信层面的优化技术
- 精通CUDA编程及GPU微架构层面的性能优化方法
- 精通NCCL、MPI等分布式通信库的性能调参与优化实践
- 熟练运用GPU性能分析工具完成性能瓶颈的识别与定位
- 具备较强的逻辑分析与问题解决能力,能够高效协同跨团队协作
- 对云计算领域新技术保持关注,具备出色的学习能力与工程实现能力
- 负责AI集群计算性能的分析与调优,定位系统瓶颈并实施优化策略
- 负责提升GPU内核运行效率,优化CUDA内核设计、显存访问方式及GPU流水线调度
- 负责多节点多卡环境下分布式通信库的性能调优,推进计算与通信的重叠优化
任职要求:
- 4年及以上AI集群计算性能调优相关工作经验
- 熟悉主流AI计算框架在计算、编译及通信层面的优化技术
- 精通CUDA编程及GPU微架构层面的性能优化方法
- 精通NCCL、MPI等分布式通信库的性能调参与优化实践
- 熟练运用GPU性能分析工具完成性能瓶颈的识别与定位
- 具备较强的逻辑分析与问题解决能力,能够高效协同跨团队协作
- 对云计算领域新技术保持关注,具备出色的学习能力与工程实现能力
2026-06-19 14:26
IP属地:北京
职位福利
本科5-10年vllmCUDAC++分布式经验pytorchLinux开发/部署经验

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >








