推理性能优化-sglang方向-北京/杭州

5-7万元/月

徐汇区

王先生

已实名

企业认证

阿里云计算有限公司

职位详情

C/C++

职位描述　　
- 参与基于 SGLang 框架的大模型推理引擎架构设计与核心组件开发，支持 Transformer、MoE、DiffusionLLM 等多种结构及 LLM/VLM 类模型的高效推理实现。
- 应用编译优化、低比特计算、投机采样、稀疏化处理、分布式推理等技术手段，提升大模型推理效率并减少部署资源消耗，同时增强系统稳定性与使用便捷性。
- 面向 GPU/AI 芯片架构（含自研硬件平台），进行深度性能调优，重点优化算子执行、内存调度、KV Cache 管理等关键模块
- 联动算法、产品及业务团队，协同推进多类模型应用场景下的端到端系统性能提升
- 跟进大模型推理领域最新技术进展，积极参与 SGLang 及其周边开源生态的建设与贡献

职位要求
- 计算机、人工智能等相关专业本科及以上学历，具有扎实的计算机体系结构和并行计算理论基础
- 熟练掌握 C/C++、Python 编程语言，能熟练运用常见性能分析与调试工具
- 了解主流推理框架并具备实际项目经验，如 SGLang、vLLM、TensorRT-LLM、lightllm 等
- 掌握 GPU/AI 芯片编程方法及相关加速库（cuBLAS、cuDNN、Cutlass 等），熟悉模型并行、流水线并行、NVLINK/GPU 通信等高性能计算技术
- 具备大模型推理系统开发、算子级优化、模型压缩或量化、分布式部署与任务调度经验者优先
- 有参与或向 SGLang、vLLM 等推理框架开源项目提交代码经历者优先

2026-06-29 15:02

IP属地：上海

职位福利

本科5-10年C++推理模型压缩/量化C算子优化Python