职位详情
职位描述
1. 深入理解主流AI芯片与服务器架构,分析硬件加速能力及内部拓扑结构,输出可落地的硬件优化方案与调优建议,充分释放硬件性能潜力。
2. 基于主流LLM推理框架(如sglang/vLLM)以及大模型的计算特征,通过软硬件协同设计与技术突破(涵盖硬件算子优化、显存管理、并行策略等),完成新服务器平台端到端性能评估与深度优化。
3. 提供面向具体应用场景的定制化性能优化服务,精准识别大模型在各类业务场景中的性能瓶颈,并快速制定匹配实际需求的优化策略。
4. 掌握系统级调优与Profiling工具(如nsys/ncu系列,通用工具Perf、火焰图等),具备系统性能剖析与瓶颈定位能力,能结合硬件特性实施软件层面适配与提升。
5. 跟踪大模型技术发展脉络与演进方向,利用硬件Profiling与Trace数据,为下一代AI基础设施的服务器架构设计与研发提供数据驱动的分析支撑。
职位要求
1. 工程基础扎实,熟练掌握C++和Python编程语言,具备Cuda/Cutlass/Triton开发经验,有高性能推理代码实现与性能调优实战经历。
2. 熟悉主流AI加速芯片(如NVIDIA、AMD、寒武纪/DCU等)体系结构、指令集与计算特性,拥有异构计算环境下开发与性能调优实践经验。
3. 熟悉sglang/vLLM/Pytorch等主流LLM推理框架,具备二次开发或深度优化能力(包括KV Cache优化、编译优化、Speculative解码、量化、DeepEP等技术)。
4. 了解服务器硬件架构(CPU、内存、网络、存储等)及多异构芯片互联拓扑,具备系统层级性能分析与瓶颈诊断能力,能依据硬件特点开展软件优化适配。
5. 具备良好的沟通协作与项目推动能力,能够与跨领域团队高效协同,合理组织资源并推进项目按期高质量交付。
如下经验优先:
1. 性能调优经验:具有sglang/vLLM在新硬件平台上的适配与优化经验,特别是针对Qwen /DeepSeek 模型进行性能提升者优先。
2. 算子优化经验:面向大模型场景,具备cutlass、Triton算子层优化经验,熟悉投机采样、TP/EP并行优化者优先。
1. 深入理解主流AI芯片与服务器架构,分析硬件加速能力及内部拓扑结构,输出可落地的硬件优化方案与调优建议,充分释放硬件性能潜力。
2. 基于主流LLM推理框架(如sglang/vLLM)以及大模型的计算特征,通过软硬件协同设计与技术突破(涵盖硬件算子优化、显存管理、并行策略等),完成新服务器平台端到端性能评估与深度优化。
3. 提供面向具体应用场景的定制化性能优化服务,精准识别大模型在各类业务场景中的性能瓶颈,并快速制定匹配实际需求的优化策略。
4. 掌握系统级调优与Profiling工具(如nsys/ncu系列,通用工具Perf、火焰图等),具备系统性能剖析与瓶颈定位能力,能结合硬件特性实施软件层面适配与提升。
5. 跟踪大模型技术发展脉络与演进方向,利用硬件Profiling与Trace数据,为下一代AI基础设施的服务器架构设计与研发提供数据驱动的分析支撑。
职位要求
1. 工程基础扎实,熟练掌握C++和Python编程语言,具备Cuda/Cutlass/Triton开发经验,有高性能推理代码实现与性能调优实战经历。
2. 熟悉主流AI加速芯片(如NVIDIA、AMD、寒武纪/DCU等)体系结构、指令集与计算特性,拥有异构计算环境下开发与性能调优实践经验。
3. 熟悉sglang/vLLM/Pytorch等主流LLM推理框架,具备二次开发或深度优化能力(包括KV Cache优化、编译优化、Speculative解码、量化、DeepEP等技术)。
4. 了解服务器硬件架构(CPU、内存、网络、存储等)及多异构芯片互联拓扑,具备系统层级性能分析与瓶颈诊断能力,能依据硬件特点开展软件优化适配。
5. 具备良好的沟通协作与项目推动能力,能够与跨领域团队高效协同,合理组织资源并推进项目按期高质量交付。
如下经验优先:
1. 性能调优经验:具有sglang/vLLM在新硬件平台上的适配与优化经验,特别是针对Qwen /DeepSeek 模型进行性能提升者优先。
2. 算子优化经验:面向大模型场景,具备cutlass、Triton算子层优化经验,熟悉投机采样、TP/EP并行优化者优先。
2026-05-23 12:18
IP属地:浙江杭州
职位福利
本科3-5年高性能推理C++算子优化AI芯片

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >





