职位详情
● 设计并构建高效的分布式推理架构,提升多节点、多GPU环境下的推理性能与资源利用效率。研发智能请求调度策略,保障高并发场景下的低延迟响应与高吞吐能力。深度优化推理引擎的运行时环境,降低系统开销,全面提升执行效率。针对多种异构AI加速硬件(如NVIDIA GPU、AMD GPU、NPU等),对关键算子进行精细化调优,充分释放计算能力和内存带宽潜力。
● 研究并落地极低bit量化与模型稀疏化技术,在压缩模型体积和降低计算消耗的同时,维持推理精度稳定。探索更高效的生成式解码机制,显著加快生成类任务的推理速度。
● 构建可支持海量并发请求的系统架构,确保在极端负载条件下仍具备良好稳定性与性能表现。集成容错设计、自动恢复机制及监控告警体系,保障服务的高可用性。打造具备弹性扩展能力的架构体系,适应未来业务规模扩张与技术迭代需求。
● 持续跟踪前沿技术动态,重点关注超长上下文处理、COT思维链、多模态融合等方向。主动探索新型推理优化路径,提出并验证具有创新性的技术方案。
职位要求
● 具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++语言及常见设计模式,拥有复杂系统的设计、开发与调试经验。
● 理解深度学习基本理论,熟悉主流模型结构与算法原理,能熟练使用PyTorch、TensorFlow等主流框架。
● 具备良好的沟通协作能力与团队合作意识,学习能力强,能够持续深入研究关键技术问题。
● 掌握计算机体系结构相关基础知识,具备高性能Kernel开发(CUDA/Triton/ROCM等)、推理引擎优化(vLLM/SGLang等)、模型算法优化(量化/稀疏等)或AI资源调度优化的实际项目经验。
加分项:
● 拥有优秀的学术成果与科研创新能力,曾在相关领域发表高水平论文或取得专利。
● 具备基于cutlass/cute进行高性能Kernel开发与极致性能调优,并成功应用于生产环境的经验。
● 在大型语言模型(LLM)等重点应用场景中,具备系统的性能优化或前沿算法落地的实践经验。
● 曾作为核心开发者参与大规模AI系统的研发,或贡献于业界主流开源项目,拥有丰富的工程落地案例与实战积累。
● 研究并落地极低bit量化与模型稀疏化技术,在压缩模型体积和降低计算消耗的同时,维持推理精度稳定。探索更高效的生成式解码机制,显著加快生成类任务的推理速度。
● 构建可支持海量并发请求的系统架构,确保在极端负载条件下仍具备良好稳定性与性能表现。集成容错设计、自动恢复机制及监控告警体系,保障服务的高可用性。打造具备弹性扩展能力的架构体系,适应未来业务规模扩张与技术迭代需求。
● 持续跟踪前沿技术动态,重点关注超长上下文处理、COT思维链、多模态融合等方向。主动探索新型推理优化路径,提出并验证具有创新性的技术方案。
职位要求
● 具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++语言及常见设计模式,拥有复杂系统的设计、开发与调试经验。
● 理解深度学习基本理论,熟悉主流模型结构与算法原理,能熟练使用PyTorch、TensorFlow等主流框架。
● 具备良好的沟通协作能力与团队合作意识,学习能力强,能够持续深入研究关键技术问题。
● 掌握计算机体系结构相关基础知识,具备高性能Kernel开发(CUDA/Triton/ROCM等)、推理引擎优化(vLLM/SGLang等)、模型算法优化(量化/稀疏等)或AI资源调度优化的实际项目经验。
加分项:
● 拥有优秀的学术成果与科研创新能力,曾在相关领域发表高水平论文或取得专利。
● 具备基于cutlass/cute进行高性能Kernel开发与极致性能调优,并成功应用于生产环境的经验。
● 在大型语言模型(LLM)等重点应用场景中,具备系统的性能优化或前沿算法落地的实践经验。
● 曾作为核心开发者参与大规模AI系统的研发,或贡献于业界主流开源项目,拥有丰富的工程落地案例与实战积累。
2026-02-21 14:33
IP属地:浙江杭州
职位福利
硕士及以上5-10年C/C++机器学习强化学习优秀开源项目经历模型加速/性能优化Python

阿里云计算有限公司
· 6人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
AI系统性能优化高级研发工程师-杭州/北
3-6万元/月
深度学习3-5年本科及以上机器学习分布式训练大模型算法pytorchPyTorch Profilerdeepseed大数据处理工具(Spark/Hadoop/Hive)模型加速/性能优化
杭州 西湖区

张先生 · 阿里云5日内活跃
高级深度学习算法研发工程师
4.5-7.5万元/月
深度学习3-5年硕士及以上图像算法分布式训练算法工程化经验多模态算法自然语言处理算法大模型算法优秀开源项目经历嵌入式开发深度学习经验发表算法相关优秀论文C/C++机器学习TensorFlow/PyTor
杭州 西湖区

李先生 · vivo5日内活跃
阿里云智能-深度学习训练/推理系统研发
4-7万元/月
深度学习5-10年本科及以上C/C++机器学习分布式训练算法工程化经验并行计算模型加速/性能优化Python
杭州 西湖区

方先生 · 阿里云5日内活跃



