大模型算法研发工程师

2.5-5万元/月

海淀区

邓女士

已实名

企业认证

上海阿蒲管理咨询事务所

职位详情

算法工程师

熟悉Post-Training流程，深入掌握强化学习领域核心技术，涵盖RM、PPO、DPO、GRPO等主流算法。
具备大规模语言模型训练框架的开发经验，熟练使用pytorch、megatron等工具链。
具备强化学习相关框架的构建与优化能力，如openRLHF、verl等系统。

工作职责
1. 参与公司内部 post-training 技术框架的研发，聚焦大模型与强化学习结合方向，主导架构设计与技术路径规划，提升系统的可扩展性、稳定性和运行效率。
2. 持续优化训练性能，包括加速训练过程、降低显存消耗等，减少整体训练开销，为大模型强化学习任务提供高效技术支持。
3. 联动业务团队，推动大模型能力在实际场景中的应用，依据具体需求定制化训练策略，并完成模型效果的评估与验证。
4. 跟踪技术发展趋势，将前沿研究成果融入现有框架与模型体系，探索新算法和方法，促进技术迭代与创新。

任职要求
1. 计算机科学、数学、统计学、自动化等相关专业本科及以上学历。
2. 熟悉模型后训练全流程，对强化学习领域有深入理解，掌握RM、PPO、DPO、GRPO等典型算法原理与实现。
3. 具备大模型训练系统开发能力，熟练运用pytorch、megatron等主流框架。
4. 具备强化学习工程框架开发经验，熟悉openRLHF、verl等系统的使用与优化。
5. 拥有扎实的C++/Python编程功底，精通数据结构与常用算法，熟练使用编译、调试及性能分析工具，具备并行计算（CUDA/Triton等）经验者优先。

2026-05-16 14:57

IP属地：北京

职位福利

本科3-5年C/C++JavaAgentpost+trainFine-Tuning分布式训练大模型算法多模态算法算法工程化经验AI微调Python