职位详情
工作职责:
我们专注于模型训练系统,为深度学习及超大规模模型训练提供强大的算力支撑,涵盖以下方向:
1、支撑百亿至万亿参数规模的大型模型,在千卡级GPU互联环境下构建高效分布式训练架构,通过分布式并行、流水线调度与通信优化手段,突破大规模训练中的性能瓶颈;
2、借助编译层面优化与专家策略调优,充分激发CPU/GPU/NPU等异构计算单元的协同算力潜能,致力于极致硬件利用率,打造高性能执行引擎,持续追求行业顶尖水平;
3、推动GPT、AIGC、多模态模型在國內最大电商场景中的实际应用与落地,实现技术与业务的深度融合。
任职要求:
1. 具备扎实的工程与算法基础,熟练掌握数据结构与常用算法,精通各类编译、调试及性能分析工具;
2. 拥有出色的工程实现能力,熟练使用C/C++、Python语言进行开发;
3. 具备大规模分布式系统研发与调优经验,有大模型分布式训练背景者优先考虑;
4. 有异构计算相关实践经验者优先,如GPU并发架构、CUDA编程、RDMA/NVLink技术、TVM/XLA编译优化等;
5. 深入理解tensorflow/pytorch/megatron/deepspeed等行业主流深度学习框架内核者优先,熟悉xla/tvm等编译优化技术者亦受青睐;
6. 动手能力强,思维活跃,具备探索精神和解决复杂问题热情的候选人优先。
我们专注于模型训练系统,为深度学习及超大规模模型训练提供强大的算力支撑,涵盖以下方向:
1、支撑百亿至万亿参数规模的大型模型,在千卡级GPU互联环境下构建高效分布式训练架构,通过分布式并行、流水线调度与通信优化手段,突破大规模训练中的性能瓶颈;
2、借助编译层面优化与专家策略调优,充分激发CPU/GPU/NPU等异构计算单元的协同算力潜能,致力于极致硬件利用率,打造高性能执行引擎,持续追求行业顶尖水平;
3、推动GPT、AIGC、多模态模型在國內最大电商场景中的实际应用与落地,实现技术与业务的深度融合。
任职要求:
1. 具备扎实的工程与算法基础,熟练掌握数据结构与常用算法,精通各类编译、调试及性能分析工具;
2. 拥有出色的工程实现能力,熟练使用C/C++、Python语言进行开发;
3. 具备大规模分布式系统研发与调优经验,有大模型分布式训练背景者优先考虑;
4. 有异构计算相关实践经验者优先,如GPU并发架构、CUDA编程、RDMA/NVLink技术、TVM/XLA编译优化等;
5. 深入理解tensorflow/pytorch/megatron/deepspeed等行业主流深度学习框架内核者优先,熟悉xla/tvm等编译优化技术者亦受青睐;
6. 动手能力强,思维活跃,具备探索精神和解决复杂问题热情的候选人优先。
2026-05-21 15:09
IP属地:北京
职位福利
博士3-5年C++编译优化分布式经验深度学习模型训练模型训练架构设计经验大模型分布式训练异构计算Python

杭州阿里云飞天信息技术有限公司
10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >








