职位详情
职位描述
- 参与基于 SGLang 框架的大模型推理引擎架构设计与核心组件开发,支持 Transformer、MoE、DiffusionLLM 等多种结构及 LLM/VLM 类模型的高效推理实现。
- 应用编译优化、低比特计算、投机采样、稀疏化处理、分布式推理等技术手段,提升大模型推理效率并减少部署资源消耗,同时增强系统稳定性与使用便捷性。
- 面向 GPU/AI 芯片架构(含自研硬件平台),进行深度性能调优,重点优化算子执行、内存调度、KV Cache 管理等关键模块
- 联动算法、产品及业务团队,协同推进多类模型应用场景下的端到端系统性能提升
- 跟进大模型推理领域最新技术进展,积极参与 SGLang 及其周边开源生态的建设与贡献
职位要求
- 计算机、人工智能等相关专业本科及以上学历,具有扎实的计算机体系结构和并行计算理论基础
- 熟练掌握 C/C++、Python 编程语言,能熟练运用常见性能分析与调试工具
- 了解主流推理框架并具备实际项目经验,如 SGLang、vLLM、TensorRT-LLM、lightllm 等
- 掌握 GPU/AI 芯片编程方法及相关加速库(cuBLAS、cuDNN、Cutlass 等),熟悉模型并行、流水线并行、NVLINK/GPU 通信等高性能计算技术
- 具备大模型推理系统开发、算子级优化、模型压缩或量化、分布式部署与任务调度经验者优先
- 有参与或向 SGLang、vLLM 等推理框架开源项目提交代码经历者优先
- 参与基于 SGLang 框架的大模型推理引擎架构设计与核心组件开发,支持 Transformer、MoE、DiffusionLLM 等多种结构及 LLM/VLM 类模型的高效推理实现。
- 应用编译优化、低比特计算、投机采样、稀疏化处理、分布式推理等技术手段,提升大模型推理效率并减少部署资源消耗,同时增强系统稳定性与使用便捷性。
- 面向 GPU/AI 芯片架构(含自研硬件平台),进行深度性能调优,重点优化算子执行、内存调度、KV Cache 管理等关键模块
- 联动算法、产品及业务团队,协同推进多类模型应用场景下的端到端系统性能提升
- 跟进大模型推理领域最新技术进展,积极参与 SGLang 及其周边开源生态的建设与贡献
职位要求
- 计算机、人工智能等相关专业本科及以上学历,具有扎实的计算机体系结构和并行计算理论基础
- 熟练掌握 C/C++、Python 编程语言,能熟练运用常见性能分析与调试工具
- 了解主流推理框架并具备实际项目经验,如 SGLang、vLLM、TensorRT-LLM、lightllm 等
- 掌握 GPU/AI 芯片编程方法及相关加速库(cuBLAS、cuDNN、Cutlass 等),熟悉模型并行、流水线并行、NVLINK/GPU 通信等高性能计算技术
- 具备大模型推理系统开发、算子级优化、模型压缩或量化、分布式部署与任务调度经验者优先
- 有参与或向 SGLang、vLLM 等推理框架开源项目提交代码经历者优先
2026-06-29 15:02
IP属地:上海
职位福利
本科5-10年C++推理模型压缩/量化C算子优化Python

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










