职位详情
岗位职责:
● 构建高效稳定的分布式推理系统,优化多节点、多GPU环境下的性能表现,提升推理效率与资源使用率。研发智能化请求调度策略,保障高并发条件下的低延迟与高吞吐能力。深入优化推理引擎运行时机制,降低响应时间,增强整体处理性能。针对多种异构AI加速设备(如NVIDIA GPU, AMD GPU, NPU等),对关键算子进行深度调优,充分发挥硬件计算能力和内存带宽潜力。
● 研究并落地极低bit量化与模型稀疏化技术,在压缩模型体积和减少计算开销的同时维持推理精度。探索更高效的生成式任务解码方法,加快推理执行速度。
● 设计支持海量并发访问的系统架构,确保在极端负载情况下的稳定性与高性能表现。集成容错设计、自动故障恢复及监控告警机制,提升系统的可用性与可靠性。打造可弹性扩展的架构体系,适应未来业务规模扩张和技术迭代需求。
● 持续跟踪前沿技术动态,重点关注超长上下文处理、COT思维链、多模态融合等方向。主动探索新型推理优化路径,提出并验证具有创新性的技术方案。
职位要求:
● 具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++语言及常见设计模式,拥有复杂系统的设计、开发与调试经验。
● 理解深度学习基本理论,熟悉主流模型结构与算法,能熟练使用PyTorch、TensorFlow等主流框架进行开发。
● 具备良好沟通协作能力,有团队合作经历,学习能力强,对技术难题有深入探究的耐心与热情。
● 掌握计算机体系结构相关基础知识,具备高性能Kernel开发(CUDA/Triton/ROCM等)、推理引擎优化(vLLM/SGLang等)、模型算法优化(量化/稀疏等)、AI资源调度优化等方面的实践经验。
加分项:
● 拥有优秀的学术成果和创新能力,曾在相关领域发表高水平论文或获得专利。
● 有使用cutlass/cute进行高性能Kernel开发与极致优化,并成功应用于生产环境的实际经验。
● 在大型语言模型(LLM)等重点应用场景中,具备系统级优化或前沿算法研究的深入实践经验。
● 曾作为核心开发者参与大规模AI系统的构建,或贡献于业界主流开源项目,具备丰富的落地案例与实战积累。
● 构建高效稳定的分布式推理系统,优化多节点、多GPU环境下的性能表现,提升推理效率与资源使用率。研发智能化请求调度策略,保障高并发条件下的低延迟与高吞吐能力。深入优化推理引擎运行时机制,降低响应时间,增强整体处理性能。针对多种异构AI加速设备(如NVIDIA GPU, AMD GPU, NPU等),对关键算子进行深度调优,充分发挥硬件计算能力和内存带宽潜力。
● 研究并落地极低bit量化与模型稀疏化技术,在压缩模型体积和减少计算开销的同时维持推理精度。探索更高效的生成式任务解码方法,加快推理执行速度。
● 设计支持海量并发访问的系统架构,确保在极端负载情况下的稳定性与高性能表现。集成容错设计、自动故障恢复及监控告警机制,提升系统的可用性与可靠性。打造可弹性扩展的架构体系,适应未来业务规模扩张和技术迭代需求。
● 持续跟踪前沿技术动态,重点关注超长上下文处理、COT思维链、多模态融合等方向。主动探索新型推理优化路径,提出并验证具有创新性的技术方案。
职位要求:
● 具备扎实的工程实现能力,良好的编码规范,熟练掌握Python/C++语言及常见设计模式,拥有复杂系统的设计、开发与调试经验。
● 理解深度学习基本理论,熟悉主流模型结构与算法,能熟练使用PyTorch、TensorFlow等主流框架进行开发。
● 具备良好沟通协作能力,有团队合作经历,学习能力强,对技术难题有深入探究的耐心与热情。
● 掌握计算机体系结构相关基础知识,具备高性能Kernel开发(CUDA/Triton/ROCM等)、推理引擎优化(vLLM/SGLang等)、模型算法优化(量化/稀疏等)、AI资源调度优化等方面的实践经验。
加分项:
● 拥有优秀的学术成果和创新能力,曾在相关领域发表高水平论文或获得专利。
● 有使用cutlass/cute进行高性能Kernel开发与极致优化,并成功应用于生产环境的实际经验。
● 在大型语言模型(LLM)等重点应用场景中,具备系统级优化或前沿算法研究的深入实践经验。
● 曾作为核心开发者参与大规模AI系统的构建,或贡献于业界主流开源项目,具备丰富的落地案例与实战积累。
2026-05-20 12:36
IP属地:浙江杭州
职位福利
本科经验不限深度学习大模型算法模型加速/性能优化C/C++Python大数据处理工具(Spark/Hadoop/Hive)并行计算分布式训练

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
大模型推理系统工程师-AI基础设施-
4.5-7.5万元/月
高性能计算工程师3-5年硕士推理引擎开发ai工程性能优化Ai infra分布式系统开发ai算法大模型推理异构计算
杭州 西湖区

蔡先生 · 阿里云7日内活跃
阿里云智能-深度学习训练系统研发专家
2.8-5.5万元/月
高性能计算工程师3-5年本科机器学习大模型算法自然语言处理算法模型加速/性能优化多模态算法C/C++Python分布式训练算法工程化经验发表算法相关优秀论文参加算法相关竞赛/获奖
杭州 西湖区

方先生 · 阿里云5日内活跃
深度学习训练系统开发专家
4-7万元/月
高性能计算工程师经验不限本科C/C++机器学习分布式训练大模型算法多模态算法强化学习并行计算模型加速/性能优化Python
杭州 西湖区

方先生 · 阿里云5日内活跃
阿里云智能-深度学习推理系统研发专家
2.8-5.5万元/月
高性能计算工程师3-5年本科机器学习大模型算法模型加速/性能优化多模态算法C/C++Python分布式训练算法工程化经验发表算法相关优秀论文参加算法相关竞赛/获奖优秀开源项目经历
杭州 西湖区

张先生 · 阿里云5日内活跃



