职位详情
工作职责:
针对 DeepSeek、通义、LLaMA 等主流模型,通过模型优化、框架优化与算子优化,提升大模型在单机及集群环境下不同GPU/NPU设备上的性能表现与运行效率
任职要求:
1. 主导大模型推理全流程优化:涵盖计算图重构、算子融合与显存调度,打造面向Transformer结构的深度优化策略
2. 搭建分布式推理系统:设计模型并行、流水线并行与张量并行的混合调度机制,实现千卡规模集群的高效线性扩展
3. 具备计算机体系结构与算法优化复合能力:熟练掌握CUDA/Triton编程,可实现kernel层级的精细调优;了解TVM/MLIR/XLA等编译框架
4. 实践背景:拥有LLaMA、GPT、GLM等百亿参数级别模型的优化经历,掌握FlashAttention、PagedAttention等核心加速技术
5. 全栈技术能力:贯通算法层面改进(如MoE/混合专家架构)、框架层调优(vLLM/DeepSpeed)至硬件协同设计的技术路径
6. 性能分析与落地:能使用nsight systems等工具开展端到端性能剖析,具备将理论算力高效转化为实际吞吐的实战能力
针对 DeepSeek、通义、LLaMA 等主流模型,通过模型优化、框架优化与算子优化,提升大模型在单机及集群环境下不同GPU/NPU设备上的性能表现与运行效率
任职要求:
1. 主导大模型推理全流程优化:涵盖计算图重构、算子融合与显存调度,打造面向Transformer结构的深度优化策略
2. 搭建分布式推理系统:设计模型并行、流水线并行与张量并行的混合调度机制,实现千卡规模集群的高效线性扩展
3. 具备计算机体系结构与算法优化复合能力:熟练掌握CUDA/Triton编程,可实现kernel层级的精细调优;了解TVM/MLIR/XLA等编译框架
4. 实践背景:拥有LLaMA、GPT、GLM等百亿参数级别模型的优化经历,掌握FlashAttention、PagedAttention等核心加速技术
5. 全栈技术能力:贯通算法层面改进(如MoE/混合专家架构)、框架层调优(vLLM/DeepSpeed)至硬件协同设计的技术路径
6. 性能分析与落地:能使用nsight systems等工具开展端到端性能剖析,具备将理论算力高效转化为实际吞吐的实战能力
2026-05-26 12:40
IP属地:浙江杭州
职位福利
硕士3-5年CUDA大模型推理优化推理优化模型优化算子优化大模型推理模型推理框架优化

杭州阿里云飞天信息技术有限公司
10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >









