职位详情
岗位职责:
● 承担PAI平台深度学习框架的开发工作,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练流程等方向,服务于通义实验室、阿里集团等多个业务场景;参与基模型Pretrain、SFT等各阶段训练任务的性能调优;
● 专注于提升各类模型训练负载在不同阶段的极致吞吐能力,系统性分析训练过程中各环节耗时瓶颈,并提出针对性优化方案,包括算子层面改进、通信机制增强、分布式策略调整等技术手段;
● 主导超大规模训练任务稳定性的架构设计,通过多种技术途径提高训练有效吞吐,建设高效的故障识别与自动恢复机制,保障大规模训练过程的平稳流畅运行;
● 参与训练框架对多元硬件环境的支持与性能调优工作。
任职要求:
● 具备扎实的工程实现能力,良好的代码规范,熟练掌握Python/C++编程语言及常见设计模式,拥有复杂系统的设计、开发与调试经验;
● 理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型与多模态模型的核心特性;
● 精通PyTorch等常用框架,深入理解Megatron、DeepSpeed、JAX等训练框架的技术差异与实现细节;
● 具有良好的沟通表达能力和团队协作精神,具备快速学习新知识的能力和持续攻坚技术难题的韧性;
● 掌握计算机体系结构相关基础知识,在异构计算优化(GPGPU/x86/ARM等)、高性能网络通信优化、分布式训练策略调优等方面有实际项目经验;
● 承担PAI平台深度学习框架的开发工作,涵盖MoE模型的大规模训练架构、多模态训练体系、RLHF训练流程等方向,服务于通义实验室、阿里集团等多个业务场景;参与基模型Pretrain、SFT等各阶段训练任务的性能调优;
● 专注于提升各类模型训练负载在不同阶段的极致吞吐能力,系统性分析训练过程中各环节耗时瓶颈,并提出针对性优化方案,包括算子层面改进、通信机制增强、分布式策略调整等技术手段;
● 主导超大规模训练任务稳定性的架构设计,通过多种技术途径提高训练有效吞吐,建设高效的故障识别与自动恢复机制,保障大规模训练过程的平稳流畅运行;
● 参与训练框架对多元硬件环境的支持与性能调优工作。
任职要求:
● 具备扎实的工程实现能力,良好的代码规范,熟练掌握Python/C++编程语言及常见设计模式,拥有复杂系统的设计、开发与调试经验;
● 理解深度学习基本理论,熟悉Transformer结构,了解主流大语言模型与多模态模型的核心特性;
● 精通PyTorch等常用框架,深入理解Megatron、DeepSpeed、JAX等训练框架的技术差异与实现细节;
● 具有良好的沟通表达能力和团队协作精神,具备快速学习新知识的能力和持续攻坚技术难题的韧性;
● 掌握计算机体系结构相关基础知识,在异构计算优化(GPGPU/x86/ARM等)、高性能网络通信优化、分布式训练策略调优等方面有实际项目经验;
2026-05-17 13:11
IP属地:北京
职位福利
本科3-5年深度学习大模型算法自然语言处理算法多模态算法C/C++Python分布式训练算法工程化经验发表算法相关优秀论文参加算法相关竞赛/获奖

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
深度学习训练系统研发专家-北京,杭州
3.5-6.5万元/月
高性能计算工程师3-5年本科机器学习大模型算法模型加速/性能优化C/C++PythonJavaGolang
北京 朝阳区

方先生 · 阿里云5日内活跃
阿里云智能-深度学习推理系统研发专家
2.8-5.5万元/月
高性能计算工程师3-5年本科深度学习大模型算法模型加速/性能优化自然语言处理算法多模态算法C/C++Python算法工程化经验发表算法相关优秀论文参加算法相关竞赛/获奖
北京 朝阳区

方先生 · 阿里云5日内活跃
异构计算软硬件融合高级开发-深圳/杭州
3-6万元/月
高性能计算工程师3-5年本科sglangvLLMQwenDeepSeekcutlassTritionTP/EPGPU
北京 朝阳区

张先生 · 阿里云5日内活跃
机器学习训练框架研发工程师/专家-北上杭
3.5-6.5万元/月
高性能计算工程师3-5年硕士深度学习强化学习大模型算法自然语言处理算法多模态算法模型加速/性能优化运筹优化并行计算
北京 朝阳区

蔡先生 · 阿里云7日内活跃
腾讯云异构计算研发工程师-深圳、北京
3-6万元/月
高性能计算工程师5-10年学历不限C/C++Python分布式训练优秀开源项目经历pytorchncclrdma
北京 海淀区

王先生 · 腾讯5日内活跃
大模型推理优化实习生
350-450元/天
高性能计算工程师经验不限硕士TensorFlow/PyTorchC/C++Python计算机相关专业深度学习经验
北京 东城区

陈先生 · 中电信人工智能公司5日内活跃


