异构计算软硬件融合高级开发工程师-深圳

2-4万元/月

深圳·南山区

方先生

已实名

企业认证

阿里云计算有限公司

职位详情

C/C++

岗位职责：
1. 深入理解主流AI芯片与服务器架构，分析其硬件加速能力及内部拓扑特征，输出可行的硬件优化方案与调优指导，最大化释放硬件性能潜力。
2. 结合主流LLM推理框架（如sglang/vLLM）以及大模型结构与计算特点，通过软硬件协同设计与技术突破（包括但不限于算子层面优化、显存管理、并行策略等），完成新服务器平台端到端性能评估与深度优化。
3. 提供面向具体场景的定制化性能优化支持，精准识别大模型在多样化业务应用中的性能瓶颈，快速制定并落地满足实际需求的优化策略。
4. 熟练运用系统级调优与Profiling工具（如nsys/ncu系列、Perf、火焰图等），开展系统性能剖析与瓶颈定位，并结合硬件特性实施软件适配与效能提升。
5. 跟踪大模型技术发展动态，基于硬件Profiling和Trace数据分析，为下一代AI基础设施的服务器架构设计与研发提供有力的量化决策依据。

任职要求：
1. 工程基础扎实，熟练掌握C++和Python编程语言，具备Cuda/Cutlass/Trition相关开发经验，有高性能推理代码实现与性能调优实践。
2. 熟悉主流AI加速芯片（如NVIDIA、AMD、寒武纪/DCU等）的体系结构、指令集与计算特性，拥有在异构计算环境下进行开发与性能优化的实际经验。
3. 掌握sglang/vLLM/Pytorch等主流LLM推理框架，具备二次开发或深度优化经历（如KV Cache优化、编译层面改进、Speculative推理、量化、DeepEP等技术）。
4. 了解服务器硬件构成（CPU、内存、网络、存储等）及多异构芯片互联拓扑，具备系统层级性能分析与瓶颈诊断能力，能依据硬件特性开展软件优化适配。
5. 具备良好的团队协作与沟通能力，能够与跨领域团队高效协同，具备项目统筹与推进能力，保障项目按期高质量交付。

如下经验优先：
1. 性能优化背景：具有sglang/vLLM在新硬件平台上的适配与优化经验，特别是针对Qwen /DeepSeek类模型的性能调优者优先。
2. 算子优化能力：在大模型场景下，具备基于cutlass、Trition的算子优化经验，熟悉投机采样、TP/EP并行优化等技术者优先。

2026-06-20 13:27

IP属地：广东深圳

职位福利

硕士3-5年C++Python