职位详情
职位描述:
● 负责PAI平台深度学习框架的技术研发,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练系统等方向,支撑通义实验室及阿里集团多个业务场景的技术需求;参与基模型Pretrain、SFT等关键阶段的训练流程优化与性能提升;
● 专注于提升各阶段模型训练任务的峰值吞吐能力,能够对不同模型负载进行系统性性能剖析,定位各环节耗时瓶颈,并提出针对性优化方案,包括但不限于算子层面改进、通信机制调优、分布式策略设计等技术手段;
● 主导超大规模训练系统的稳定性建设,通过多种技术路径提高训练任务的实际有效吞吐,构建高效的故障感知机制与自动恢复能力,保障大规模训练过程的平稳与流畅;
● 参与训练框架在多种硬件平台上的适配与性能优化工作,提升跨硬件环境下的执行效率与兼容性。
职位要求:
● 具备扎实的工程实现能力,良好的代码规范,熟练掌握Python/C++编程语言及常见设计模式,拥有复杂软件系统的架构设计、开发与调试经验;
● 理解深度学习基本理论,熟悉Transformer结构原理,了解主流大语言模型与多模态模型的技术特性与发展动态;
● 精通PyTorch等常用深度学习框架,深入理解Megatron、DeepSpeed、JAX等训练框架的设计理念与核心技术细节;
● 具备良好的沟通协作能力和团队合作精神,善于表达与交流;具备快速学习新技术的能力和深入探究技术难题的耐心与热情;
● 掌握计算机体系结构相关基础知识,具有异构计算优化(GPGPU/x86/ARM等)、高性能网络通信调优、分布式训练策略设计等方面的实践积累。
● 负责PAI平台深度学习框架的技术研发,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练系统等方向,支撑通义实验室及阿里集团多个业务场景的技术需求;参与基模型Pretrain、SFT等关键阶段的训练流程优化与性能提升;
● 专注于提升各阶段模型训练任务的峰值吞吐能力,能够对不同模型负载进行系统性性能剖析,定位各环节耗时瓶颈,并提出针对性优化方案,包括但不限于算子层面改进、通信机制调优、分布式策略设计等技术手段;
● 主导超大规模训练系统的稳定性建设,通过多种技术路径提高训练任务的实际有效吞吐,构建高效的故障感知机制与自动恢复能力,保障大规模训练过程的平稳与流畅;
● 参与训练框架在多种硬件平台上的适配与性能优化工作,提升跨硬件环境下的执行效率与兼容性。
职位要求:
● 具备扎实的工程实现能力,良好的代码规范,熟练掌握Python/C++编程语言及常见设计模式,拥有复杂软件系统的架构设计、开发与调试经验;
● 理解深度学习基本理论,熟悉Transformer结构原理,了解主流大语言模型与多模态模型的技术特性与发展动态;
● 精通PyTorch等常用深度学习框架,深入理解Megatron、DeepSpeed、JAX等训练框架的设计理念与核心技术细节;
● 具备良好的沟通协作能力和团队合作精神,善于表达与交流;具备快速学习新技术的能力和深入探究技术难题的耐心与热情;
● 掌握计算机体系结构相关基础知识,具有异构计算优化(GPGPU/x86/ARM等)、高性能网络通信调优、分布式训练策略设计等方面的实践积累。
2026-05-19 13:21
IP属地:上海
职位福利
本科3-5年C/C++深度学习算法工程化经验强化学习模型加速/性能优化Python

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
算法工程师(交易策略)
2-4万元/月
算法工程师3-5年本科C/C++运筹优化算法大数据处理框架(Spark/Hadoop/Hive)风控算法模型加速/性能优化Python
上海 徐汇区

先生 · 东方财富集团3日内活跃
算法实习生(知识产权方向)
200-300元/天
兼职算法工程师1年以下本科图像算法自然语言处理算法广告算法推荐算法多模态算法PythonJava大模型算法算法工程化经验发表算法相关优秀论文参加算法相关竞赛/获奖优秀开源项目经历
上海 徐汇区 龙华

王女士 · 竟策7日内活跃
算法工程师
1-1.4万元/月
兼职算法工程师经验不限博士留学生优先图像算法自然语言处理算法推荐算法SLAM算法多模态算法Java并行计算嵌入式开发大数据处理框架(Spark/Hadoop/Hive)分布式训练深度学习机器学习大模型算法强化学习发表算法相关优秀论文参加算法相关竞赛/获奖
上海 徐汇区 交大

徐女士 · 上海追梦逐光科技7日内活跃






