搜索
登录注册

职位详情

"职位描述
1、底层算子研发与极致优化:深度参与大模型推理框架核心Kernel的开发,与算法团队紧密协作进行算法设计到落地全链路的调优,探索并突破算子性能极限;
2、硬件级性能压榨:深入洞察硬件架构特性,针对不同计算与访存场景进行极致的算子性能调优,大幅提升模型推理的MFU与MBU。
职位要求
1、具备扎实的C++/Python基础,精通CUDA、CUTLASS等高性能开发语言及库;
2、熟悉Triton、TileLang、Cutile-python 等现代AI编译器与前沿工具链;
3、深入理解Flash Attention及其衍生技术的工作原理与主流优化方法;
4、具备过硬的计算机体系结构功底,深刻理解现代芯片(如主流 GPU)的计算流水线与存储层级架构。
加分项:
1、熟悉主流大语言模型的底层网络架构;
2、在FuseMoE、Ragged Flash Attention、Ring Attention等前沿高效算子优化方面有实际开发经验或深入研究探索;
3、参与过千亿/万亿级开源大模型或主流高性能推理引擎(如SGLang、vLLM、ensorRT-LLM)底层性能优化经验者优先。
职位信息
"
2026-05-26 11:46
IP属地:河北

职位福利

本科3-5年留学生优先国内院校优先
企业发布信息图
北京艾优程管理咨询有限公司
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

小米澎湃OS-编译器
7-10万元/月
高性能计算工程师5-10年硕士LLVMART编译器
北京 海淀区
刘先生 · 小米5日内活跃
腾讯云异构计算研发工程师-深圳、北京
3-6万元/月
高性能计算工程师5-10年学历不限C/C++Python分布式训练优秀开源项目经历pytorchncclrdma
北京 海淀区
王先生 · 腾讯5日内活跃
大模型推理优化实习生
350-450元/天
高性能计算工程师经验不限硕士TensorFlow/PyTorchC/C++Python计算机相关专业深度学习经验
北京 东城区
阿里云智能-深度学习训练架构研发专家
3-6万元/月
高性能计算工程师3-5年本科机器学习自然语言处理算法Python分布式训练算法工程化经验
北京 朝阳区
深度学习训练系统研发专家-北京,杭州
3.5-6.5万元/月
高性能计算工程师3-5年本科机器学习大模型算法模型加速/性能优化C/C++PythonJavaGolang
北京 朝阳区
高性能计算开发工程师
4-6万元/月
高性能计算工程师3-5年硕士多线程网络编程多进程LinuxCUDAARM开发
北京 西城区
阿里云智能-深度学习推理系统研发专家
2.8-5.5万元/月
高性能计算工程师3-5年本科深度学习大模型算法模型加速/性能优化自然语言处理算法多模态算法C/C++Python算法工程化经验发表算法相关优秀论文参加算法相关竞赛/获奖
北京 朝阳区
异构计算软硬件融合高级开发-深圳/杭州
3-6万元/月
高性能计算工程师3-5年本科sglangvLLMQwenDeepSeekcutlassTritionTP/EPGPU
北京 朝阳区
阿里云智能-深度学习训练系统研发专家
2.8-5.5万元/月
高性能计算工程师3-5年本科深度学习大模型算法自然语言处理算法多模态算法C/C++Python分布式训练算法工程化经验发表算法相关优秀论文参加算法相关竞赛/获奖
北京 朝阳区