职位详情
职位描述
1. 深入理解主流AI芯片与服务器架构,剖析硬件加速特性及内部拓扑结构,输出可落地的硬件优化方案与调优建议,充分释放硬件性能潜力。
2. 结合主流LLM推理框架(如sglang/vLLM)以及大模型结构与计算特征,通过软硬件协同创新(涵盖硬件算子优化、显存管理、并行策略等),主导新服务器平台端到端性能分析与调优工作。
3. 提供面向具体场景的定制化优化能力,精准识别大模型在各类业务环境中的性能瓶颈,并快速制定匹配需求的优化策略。
4. 熟练掌握系统级调优与Profiling工具(如nsys/ncu系列、Perf、火焰图等),具备系统性性能分析和瓶颈定位能力,能结合硬件特点完成软件适配与深度优化。
5. 跟踪大模型技术发展趋势,结合硬件Profiling与Trace数据,为下一代AI基础设施的服务器架构设计与研发提供数据驱动的量化分析支持。
职位要求
1. 具备扎实的工程开发能力,熟练掌握C++和Python编程语言,拥有Cuda/Cutlass/Triton相关开发经验,具备高性能推理代码实现与优化实践。
2. 熟悉主流AI加速芯片(如NVIDIA、AMD、寒武纪/DCU等)的体系结构、指令集与计算特性,具有异构计算环境下开发与性能调优的实际经验。
3. 熟悉sglang/vLLM/Pytorch等主流LLM推理框架,具备二次开发或深度优化经验(包括KV Cache优化、编译优化、Speculative推理、量化、DeepEP等技术)。
4. 了解服务器硬件架构(CPU、内存、网络、存储等)及多异构芯片互联拓扑,具备系统级性能分析与瓶颈诊断能力,能够基于硬件特性开展软件适配与优化。
5. 具备良好的团队协作与沟通能力,能够与跨职能团队高效协同,具备项目统筹与组织规划能力,保障项目高质量按时交付。
如下经验优先:
1. 性能调优经验:具备sglang/vLLM在新硬件平台上的适配与优化经验,有针对Qwen/DeepSeek等模型进行性能优化者优先。
2. 算子优化经验:面向大模型场景,具备cutlass、Triton算子层面优化经验,熟悉投机采样、TP/EP并行优化者优先。
1. 深入理解主流AI芯片与服务器架构,剖析硬件加速特性及内部拓扑结构,输出可落地的硬件优化方案与调优建议,充分释放硬件性能潜力。
2. 结合主流LLM推理框架(如sglang/vLLM)以及大模型结构与计算特征,通过软硬件协同创新(涵盖硬件算子优化、显存管理、并行策略等),主导新服务器平台端到端性能分析与调优工作。
3. 提供面向具体场景的定制化优化能力,精准识别大模型在各类业务环境中的性能瓶颈,并快速制定匹配需求的优化策略。
4. 熟练掌握系统级调优与Profiling工具(如nsys/ncu系列、Perf、火焰图等),具备系统性性能分析和瓶颈定位能力,能结合硬件特点完成软件适配与深度优化。
5. 跟踪大模型技术发展趋势,结合硬件Profiling与Trace数据,为下一代AI基础设施的服务器架构设计与研发提供数据驱动的量化分析支持。
职位要求
1. 具备扎实的工程开发能力,熟练掌握C++和Python编程语言,拥有Cuda/Cutlass/Triton相关开发经验,具备高性能推理代码实现与优化实践。
2. 熟悉主流AI加速芯片(如NVIDIA、AMD、寒武纪/DCU等)的体系结构、指令集与计算特性,具有异构计算环境下开发与性能调优的实际经验。
3. 熟悉sglang/vLLM/Pytorch等主流LLM推理框架,具备二次开发或深度优化经验(包括KV Cache优化、编译优化、Speculative推理、量化、DeepEP等技术)。
4. 了解服务器硬件架构(CPU、内存、网络、存储等)及多异构芯片互联拓扑,具备系统级性能分析与瓶颈诊断能力,能够基于硬件特性开展软件适配与优化。
5. 具备良好的团队协作与沟通能力,能够与跨职能团队高效协同,具备项目统筹与组织规划能力,保障项目高质量按时交付。
如下经验优先:
1. 性能调优经验:具备sglang/vLLM在新硬件平台上的适配与优化经验,有针对Qwen/DeepSeek等模型进行性能优化者优先。
2. 算子优化经验:面向大模型场景,具备cutlass、Triton算子层面优化经验,熟悉投机采样、TP/EP并行优化者优先。
2026-05-17 13:15
IP属地:北京
职位福利
本科3-5年sglangvLLMQwenDeepSeekcutlassTritionTP/EPGPU

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
深度学习训练系统研发专家-北京,杭州
3.5-6.5万元/月
高性能计算工程师3-5年本科机器学习大模型算法模型加速/性能优化C/C++PythonJavaGolang
北京 朝阳区

方先生 · 阿里云5日内活跃
阿里云智能-深度学习推理系统研发专家
2.8-5.5万元/月
高性能计算工程师3-5年本科深度学习大模型算法模型加速/性能优化自然语言处理算法多模态算法C/C++Python算法工程化经验发表算法相关优秀论文参加算法相关竞赛/获奖
北京 朝阳区

方先生 · 阿里云5日内活跃
阿里云智能-深度学习训练系统研发专家
2.8-5.5万元/月
高性能计算工程师3-5年本科深度学习大模型算法自然语言处理算法多模态算法C/C++Python分布式训练算法工程化经验发表算法相关优秀论文参加算法相关竞赛/获奖
北京 朝阳区

张先生 · 阿里云5日内活跃
机器学习训练框架研发工程师/专家-北上杭
3.5-6.5万元/月
高性能计算工程师3-5年硕士深度学习强化学习大模型算法自然语言处理算法多模态算法模型加速/性能优化运筹优化并行计算
北京 朝阳区

蔡先生 · 阿里云5日内活跃
大模型推理优化实习生
350-450元/天
高性能计算工程师经验不限硕士TensorFlow/PyTorchC/C++Python计算机相关专业深度学习经验
北京 东城区

陈先生 · 中电信人工智能公司5日内活跃



