搜索
登录注册

职位详情

职位描述
1. 深入理解主流AI芯片与服务器架构,剖析硬件加速特性及内部拓扑结构,输出可落地的硬件优化策略与调优建议,最大化释放硬件性能潜力。
2. 结合主流LLM推理框架(如sglang/vLLM)以及大模型的结构特征与计算模式,通过软硬件协同设计与技术突破(包括但不限于算子层面优化、显存管理、并行计算等),主导新服务器平台端到端性能评估与效能提升。
3. 提供面向具体场景的定制化优化能力,精准识别大模型在多样化业务应用中的性能瓶颈,并快速制定匹配实际需求的性能提升方案。
4. 熟练运用系统级调优与Profiling工具(如nsys/ncu系列、Perf、火焰图等),开展系统性能深度分析与瓶颈定位,并结合硬件特性完成软件层适配与性能增强。
5. 跟踪大模型技术发展脉络与演进方向,结合硬件Profiling与Trace数据,为下一代AI基础设施的服务器架构设计与研发提供有力的数据支撑与决策依据。

职位要求
1. 具备扎实的工程实现能力,熟练掌握C++和Python编程语言,拥有Cuda/Cutlass/Triton相关开发经验,具备高性能推理代码编写与优化实践背景。
2. 熟悉主流AI加速芯片(如NVIDIA、AMD、寒武纪/DCU等)的体系结构、指令集与计算特点,具有在异构计算环境下进行开发与性能调优的实际经验。
3. 掌握sglang/vLLM/Pytorch等主流LLM推理框架,具备二次开发或深度优化经历(如KV Cache优化、编译层面优化、Speculative Decoding、量化、DeepEP等技术)。
4. 了解服务器硬件架构(CPU、内存、网络、存储等)及多异构芯片互联拓扑,具备系统级性能分析与瓶颈诊断能力,能基于硬件特征实施软件优化策略。
5. 具备良好的沟通协作与项目推动能力,能够与跨专业团队高效协同,对项目进度与交付质量进行有效组织与管控,保障项目顺利推进。

如下经验优先:
1. 性能调优经验:具备sglang/vLLM在新型硬件上的适配与优化经验,有针对Qwen /DeepSeek模型进行性能优化者优先。
2. 算子优化经验:面向大模型场景,具有使用cutlass、Triton进行算子优化,以及投机采样、TP/EP并行优化实践经验者优先。
2026-02-24 14:31
IP属地:广东深圳

职位福利

本科及以上3-5年高性能推理C++AI加速芯片算子优化
企业发布信息图
阿里云计算有限公司
· 6人以上
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

c++游戏开发
1.1-1.4万元/月
C/C++1-3年本科及以上Linux开发/部署经验游戏后端经验MySQLRedisC++
深圳 南山区 科技园
软件开发工程师(mesh通信协议)
1.8-3万元/月
C/C++3-5年本科及以上C++C路由器嵌入式软件经验OpenGLCPELinux开发/部署经验
深圳 南山区
应用软件开发工程师
1.5-3万元/月
C/C++经验不限本科及以上C++C
深圳 南山区
C++
1.5-3万元/月
C/C++3-5年本科及以上分布式经验MySQLRedisC++
深圳 南山区 科技园
应用软件开发工程师
2.2-3.5万元/月
C/C++1年以下本科及以上Linux路由器
深圳 南山区
软件研发助理工程师
7000-10000元/月
C/C++经验不限本科及以上
深圳 南山区
C++开发运维
8000-13000元/月
C/C++经验不限本科及以上Linux开发/部署经验量化交易开发经验C++
深圳 南山区 前海
撮合引擎开发
2.5-5万元/月
C/C++经验不限学历不限
深圳 南山区 南油
C++开发工程师
8000-12000元/月
C/C++3-5年本科及以上
深圳 南山区
C++技术开发岗位(医疗设备软件方向)
1-1.5万元/月
C/C++1-3年本科及以上
深圳 南山区