职位详情
职位描述
1. 负责灵骏集群AI系统的性能评估与调优,支撑客户多种AI任务场景及不同规模集群运行,精准定位性能瓶颈并制定有效优化策略;
2. 面向主流深度学习框架、分布式训练流程及模型部署环境,开展系统性性能优化,提升算子执行效率、通信效率与内存使用率等核心指标,增强集群整体运算效能;
3. 构建AI系统性能模型与仿真体系,搭建Roofline模型等分析手段,利用仿真数据指导系统架构设计与资源规划,为集群建设提供决策依据;同时输出最优训练与部署配置建议,助力用户实现高性能实践目标;
4. 主导性能分析工具的研发与迭代,实现系统级性能监控、问题根因分析与优化成效验证,输出专业性能报告,为团队及客户提供可靠的技术支持与优化方案。
职位要求
1. 掌握深度学习框架(如PyTorch)及分布式训练技术(如DeepSpeed、FSDP、Megatron、NCCL);
2. 熟悉常用AI系统性能分析工具(如Nsight、PyTorch Profiler等);
3. 具备性能建模与仿真实践经验,了解Roofline模型等典型性能分析方法;
4. 熟悉CUDA、OpenCL等并行计算架构,在多模态生成式AI场景下有性能优化经验者优先,具备GPU/PPU底层性能调优能力者更佳。
1. 负责灵骏集群AI系统的性能评估与调优,支撑客户多种AI任务场景及不同规模集群运行,精准定位性能瓶颈并制定有效优化策略;
2. 面向主流深度学习框架、分布式训练流程及模型部署环境,开展系统性性能优化,提升算子执行效率、通信效率与内存使用率等核心指标,增强集群整体运算效能;
3. 构建AI系统性能模型与仿真体系,搭建Roofline模型等分析手段,利用仿真数据指导系统架构设计与资源规划,为集群建设提供决策依据;同时输出最优训练与部署配置建议,助力用户实现高性能实践目标;
4. 主导性能分析工具的研发与迭代,实现系统级性能监控、问题根因分析与优化成效验证,输出专业性能报告,为团队及客户提供可靠的技术支持与优化方案。
职位要求
1. 掌握深度学习框架(如PyTorch)及分布式训练技术(如DeepSpeed、FSDP、Megatron、NCCL);
2. 熟悉常用AI系统性能分析工具(如Nsight、PyTorch Profiler等);
3. 具备性能建模与仿真实践经验,了解Roofline模型等典型性能分析方法;
4. 熟悉CUDA、OpenCL等并行计算架构,在多模态生成式AI场景下有性能优化经验者优先,具备GPU/PPU底层性能调优能力者更佳。
2026-05-17 12:41
IP属地:北京
职位福利
本科5-10年GolangcudaShellrdma异构gpuPython高性能

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
AI专家-远程办公-web3
1.5-3万元/月
深度学习3-5年硕士发表算法相关优秀论文C/C++团队管理经验机器学习图像算法大模型算法算法工程化经验强化学习参加算法相关竞赛/获奖Python
北京 朝阳区

陈女士 · OPE讴谱科技5日内活跃
AI系统性能优化高级研发工程师-杭州/北
3-6万元/月
深度学习3-5年本科机器学习分布式训练大模型算法pytorchPyTorch Profilerdeepseed大数据处理工具(Spark/Hadoop/Hive)模型加速/性能优化
北京 朝阳区

张先生 · 阿里云5日内活跃






