异构计算软硬件融合高级开发-深圳/杭州

5-8万元/月

杭州·西湖区

张先生

已实名

企业认证

阿里云计算有限公司

职位详情

C/C++

职位描述
1. 深入理解主流AI芯片与服务器架构，分析硬件加速能力及内部拓扑结构，输出可落地的硬件优化方案与调优建议，充分释放硬件性能潜力。
2. 基于主流LLM推理框架（如sglang/vLLM）以及大模型的计算特征，通过软硬件协同设计与技术突破（涵盖硬件算子优化、显存管理、并行策略等），完成新服务器平台端到端性能评估与深度优化。
3. 提供面向具体应用场景的定制化性能优化服务，精准识别大模型在各类业务场景中的性能瓶颈，并快速制定匹配实际需求的优化策略。
4. 掌握系统级调优与Profiling工具（如nsys/ncu系列，通用工具Perf、火焰图等），具备系统性能剖析与瓶颈定位能力，能结合硬件特性实施软件层面适配与提升。
5. 跟踪大模型技术发展脉络与演进方向，利用硬件Profiling与Trace数据，为下一代AI基础设施的服务器架构设计与研发提供数据驱动的分析支撑。

职位要求
1. 工程基础扎实，熟练掌握C++和Python编程语言，具备Cuda/Cutlass/Triton开发经验，有高性能推理代码实现与性能调优实战经历。
2. 熟悉主流AI加速芯片（如NVIDIA、AMD、寒武纪/DCU等）体系结构、指令集与计算特性，拥有异构计算环境下开发与性能调优实践经验。
3. 熟悉sglang/vLLM/Pytorch等主流LLM推理框架，具备二次开发或深度优化能力（包括KV Cache优化、编译优化、Speculative解码、量化、DeepEP等技术）。
4. 了解服务器硬件架构（CPU、内存、网络、存储等）及多异构芯片互联拓扑，具备系统层级性能分析与瓶颈诊断能力，能依据硬件特点开展软件优化适配。
5. 具备良好的沟通协作与项目推动能力，能够与跨领域团队高效协同，合理组织资源并推进项目按期高质量交付。

如下经验优先：
1. 性能调优经验：具有sglang/vLLM在新硬件平台上的适配与优化经验，特别是针对Qwen /DeepSeek 模型进行性能提升者优先。
2. 算子优化经验：面向大模型场景，具备cutlass、Triton算子层优化经验，熟悉投机采样、TP/EP并行优化者优先。

2026-07-27 14:40

IP属地：浙江杭州

职位福利

本科3-5年高性能推理C++算子优化AI芯片