搜索
登录注册

职位详情

职位描述
1. 深入理解主流AI芯片与服务器架构,剖析硬件加速特性及内部拓扑结构,输出可落地的硬件优化策略与调优建议,最大化释放硬件性能潜力。
2. 结合主流LLM推理框架(如sglang/vLLM)以及大模型的结构特征与计算模式,通过软硬件协同设计与技术突破(包括但不限于算子层面优化、显存管理、并行计算等),主导新服务器平台端到端性能评估与效能提升。
3. 提供面向具体场景的定制化优化能力,精准识别大模型在多样化业务应用中的性能瓶颈,并快速制定匹配实际需求的性能提升方案。
4. 熟练运用系统级调优与Profiling工具(如nsys/ncu系列、Perf、火焰图等),开展系统性能深度分析与瓶颈定位,并结合硬件特性完成软件层适配与性能增强。
5. 跟踪大模型技术发展脉络与演进方向,结合硬件Profiling与Trace数据,为下一代AI基础设施的服务器架构设计与研发提供有力的数据支撑与决策依据。

职位要求
1. 具备扎实的工程实现能力,熟练掌握C++和Python编程语言,拥有Cuda/Cutlass/Triton相关开发经验,具备高性能推理代码编写与优化实践背景。
2. 熟悉主流AI加速芯片(如NVIDIA、AMD、寒武纪/DCU等)的体系结构、指令集与计算特点,具有在异构计算环境下进行开发与性能调优的实际经验。
3. 掌握sglang/vLLM/Pytorch等主流LLM推理框架,具备二次开发或深度优化经历(如KV Cache优化、编译层面优化、Speculative Decoding、量化、DeepEP等技术)。
4. 了解服务器硬件架构(CPU、内存、网络、存储等)及多异构芯片互联拓扑,具备系统级性能分析与瓶颈诊断能力,能基于硬件特征实施软件优化策略。
5. 具备良好的沟通协作与项目推动能力,能够与跨专业团队高效协同,对项目进度与交付质量进行有效组织与管控,保障项目顺利推进。

如下经验优先:
1. 性能调优经验:具备sglang/vLLM在新型硬件上的适配与优化经验,有针对Qwen /DeepSeek模型进行性能优化者优先。
2. 算子优化经验:面向大模型场景,具有使用cutlass、Triton进行算子优化,以及投机采样、TP/EP并行优化实践经验者优先。
2026-05-15 14:13
IP属地:广东深圳

职位福利

本科3-5年高性能推理C++AI加速芯片算子优化
企业发布信息图
阿里云计算有限公司
不需要融资 · 10000人以上
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

Windows客户端开发工程师(C++/Qt)
1-1.5万元/月
C/C++3-5年本科C语言STL
深圳 南山区
c++开发工程师
1.9-2.1万元/月
C/C++3-5年本科C语言图形图像处理图像识别
深圳 南山区
PON软件开发工程师
1.8-3.5万元/月
C/C++经验不限本科C++C嵌入式软件经验架构设计经验Linux开发/部署经验PON
深圳 南山区
钟女士 · memohi5日内活跃
应用软件开发工程师
2.2-3.5万元/月
C/C++1年以下本科Linux路由器
深圳 南山区
钟女士 · memohi5日内活跃
服务器软硬件协同研发专家
3-6万元/月
C/C++5-10年本科C
深圳 南山区
Windows应用开发工程师(C++)
2-3.5万元/月
C/C++3-5年本科音视频经验C++QTopencv,ffmpeg图形开发经验
深圳 南山区
BIOS开发工程师
2-2.5万元/月
C/C++嵌入式软件工程师3-5年本科C++嵌入式软件经验
深圳 南山区
C++项目负责人
1-1.5万元/月
C/C++1-3年本科C语言C#
深圳 南山区
IPC算法集成工程师
2-4万元/月
C/C++5-10年本科音视频经验C++C分布式经验嵌入式软件经验摄像头Linux开发/部署经验IPC上位机开发经验IOT
深圳 南山区
刘女士 · WYZE5日内活跃
鸿蒙C++
1.2-1.4万元/月
C/C++1-3年本科C++ArkTS
深圳 南山区