职位详情
岗位职责:
1. 深入理解主流AI芯片与服务器架构,分析其硬件加速能力及内部拓扑特征,输出可行的硬件优化方案与调优指导,最大化释放硬件性能潜力。
2. 结合主流LLM推理框架(如sglang/vLLM)以及大模型结构与计算特点,通过软硬件协同设计与技术突破(包括但不限于算子层面优化、显存管理、并行策略等),完成新服务器平台端到端性能评估与深度优化。
3. 提供面向具体场景的定制化性能优化支持,精准识别大模型在多样化业务应用中的性能瓶颈,快速制定并落地满足实际需求的优化策略。
4. 熟练运用系统级调优与Profiling工具(如nsys/ncu系列、Perf、火焰图等),开展系统性能剖析与瓶颈定位,并结合硬件特性实施软件适配与效能提升。
5. 跟踪大模型技术发展动态,基于硬件Profiling和Trace数据分析,为下一代AI基础设施的服务器架构设计与研发提供有力的量化决策依据。
任职要求:
1. 工程基础扎实,熟练掌握C++和Python编程语言,具备Cuda/Cutlass/Trition相关开发经验,有高性能推理代码实现与性能调优实践。
2. 熟悉主流AI加速芯片(如NVIDIA、AMD、寒武纪/DCU等)的体系结构、指令集与计算特性,拥有在异构计算环境下进行开发与性能优化的实际经验。
3. 掌握sglang/vLLM/Pytorch等主流LLM推理框架,具备二次开发或深度优化经历(如KV Cache优化、编译层面改进、Speculative推理、量化、DeepEP等技术)。
4. 了解服务器硬件构成(CPU、内存、网络、存储等)及多异构芯片互联拓扑,具备系统层级性能分析与瓶颈诊断能力,能依据硬件特性开展软件优化适配。
5. 具备良好的团队协作与沟通能力,能够与跨领域团队高效协同,具备项目统筹与推进能力,保障项目按期高质量交付。
如下经验优先:
1. 性能优化背景:具有sglang/vLLM在新硬件平台上的适配与优化经验,特别是针对Qwen /DeepSeek类模型的性能调优者优先。
2. 算子优化能力:在大模型场景下,具备基于cutlass、Trition的算子优化经验,熟悉投机采样、TP/EP并行优化等技术者优先。
1. 深入理解主流AI芯片与服务器架构,分析其硬件加速能力及内部拓扑特征,输出可行的硬件优化方案与调优指导,最大化释放硬件性能潜力。
2. 结合主流LLM推理框架(如sglang/vLLM)以及大模型结构与计算特点,通过软硬件协同设计与技术突破(包括但不限于算子层面优化、显存管理、并行策略等),完成新服务器平台端到端性能评估与深度优化。
3. 提供面向具体场景的定制化性能优化支持,精准识别大模型在多样化业务应用中的性能瓶颈,快速制定并落地满足实际需求的优化策略。
4. 熟练运用系统级调优与Profiling工具(如nsys/ncu系列、Perf、火焰图等),开展系统性能剖析与瓶颈定位,并结合硬件特性实施软件适配与效能提升。
5. 跟踪大模型技术发展动态,基于硬件Profiling和Trace数据分析,为下一代AI基础设施的服务器架构设计与研发提供有力的量化决策依据。
任职要求:
1. 工程基础扎实,熟练掌握C++和Python编程语言,具备Cuda/Cutlass/Trition相关开发经验,有高性能推理代码实现与性能调优实践。
2. 熟悉主流AI加速芯片(如NVIDIA、AMD、寒武纪/DCU等)的体系结构、指令集与计算特性,拥有在异构计算环境下进行开发与性能优化的实际经验。
3. 掌握sglang/vLLM/Pytorch等主流LLM推理框架,具备二次开发或深度优化经历(如KV Cache优化、编译层面改进、Speculative推理、量化、DeepEP等技术)。
4. 了解服务器硬件构成(CPU、内存、网络、存储等)及多异构芯片互联拓扑,具备系统层级性能分析与瓶颈诊断能力,能依据硬件特性开展软件优化适配。
5. 具备良好的团队协作与沟通能力,能够与跨领域团队高效协同,具备项目统筹与推进能力,保障项目按期高质量交付。
如下经验优先:
1. 性能优化背景:具有sglang/vLLM在新硬件平台上的适配与优化经验,特别是针对Qwen /DeepSeek类模型的性能调优者优先。
2. 算子优化能力:在大模型场景下,具备基于cutlass、Trition的算子优化经验,熟悉投机采样、TP/EP并行优化等技术者优先。
2026-06-20 13:27
IP属地:广东深圳
职位福利
硕士3-5年C++Python

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >












