职位详情
-负责AI算法框架的深度优化和开发,识别和定位相关模型训练推理和系统的性能瓶颈,优化CPU/GPU/内存/通信等资源利用率,提升并行计算并发效率;
-负责研究深度学习、LLM和性能加速的最新发展趋势,将前沿的算法和优化技术应用到各业务线。
-负责AI算法框架与底层存储(数据预读),调度(弹性训练)等基础设施API交互的开发工作;
职位要求
-熟悉Python/C/C++等编程语言,扎实的代码能力、数据结构与算法基础具,有较强的软件架构设计能力;
-熟悉PyTorch、DeepSpeed、Megatron、vLLM和SGLang等深度学习训练推理框架,熟练掌握深度学习性能加速技术,包括计算图优化、低精度优化、算子加速,以及DP/TP/PP/SP/EP等并行加速技术;
-熟悉NVIDIA GPU架构及编程模型,掌握CUDA核函数优化、显存管理、多流并发等技术,有实际性能调优(profiler/nsys/ncu)经验;
-有分布式系统开发经验,熟悉MPI、NCCL等通信库,了解IB/ROCE/NVLINK组网架构;
-熟悉AI编译器,有LLVM、TVM、MLIR、XLA 等编译开发经验者优先;
- 有实际CV、LLM等模型训练调参和效果评测项目经验的优先;
-自动驾驶大模型算法的相关实施落地经验优先;
- 硕士及以上,计算机,人工智能,数据科学相关;
- 开源项目主要贡献者,优秀paper作者优先;
-负责研究深度学习、LLM和性能加速的最新发展趋势,将前沿的算法和优化技术应用到各业务线。
-负责AI算法框架与底层存储(数据预读),调度(弹性训练)等基础设施API交互的开发工作;
职位要求
-熟悉Python/C/C++等编程语言,扎实的代码能力、数据结构与算法基础具,有较强的软件架构设计能力;
-熟悉PyTorch、DeepSpeed、Megatron、vLLM和SGLang等深度学习训练推理框架,熟练掌握深度学习性能加速技术,包括计算图优化、低精度优化、算子加速,以及DP/TP/PP/SP/EP等并行加速技术;
-熟悉NVIDIA GPU架构及编程模型,掌握CUDA核函数优化、显存管理、多流并发等技术,有实际性能调优(profiler/nsys/ncu)经验;
-有分布式系统开发经验,熟悉MPI、NCCL等通信库,了解IB/ROCE/NVLINK组网架构;
-熟悉AI编译器,有LLVM、TVM、MLIR、XLA 等编译开发经验者优先;
- 有实际CV、LLM等模型训练调参和效果评测项目经验的优先;
-自动驾驶大模型算法的相关实施落地经验优先;
- 硕士及以上,计算机,人工智能,数据科学相关;
- 开源项目主要贡献者,优秀paper作者优先;
2026-03-19 15:55
IP属地:四川
职位福利
硕士3-5年运筹优化算法多模态算法融合感知算法模型加速/性能优化C/C++Python并行计算分布式训练深度学习机器学习大模型算法强化学习算法工程化经验AI infra 自动驾驶 高性能计算大模型推理优化技术,如压缩量化、计算并行CPU GPU DSP 性能调优

成都纳欣人力资源服务有限公司

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >








