职位详情
工作职责
1. 负责Agent场景下的效果调优,深入探索大语言模型后训练核心技术,如CPT/SFT/RLHF/RLVR等方法,持续提升算法的准确性与运行效率。
2. 搭建大规模高质量数据体系,涵盖数据构建、采集解析及合成等环节,研究从线上真实场景数据到强化学习流程中的数据闭环机制。
3. 关注大模型前沿技术动态,将其应用于算法性能的迭代优化,研究方向覆盖奖励模型的改进与创新、AgentRL、可验证奖励体系的设计与扩展等。
4. 深度融入产品开发与业务实践过程,协同工程、研发、产品团队紧密协作,推动先进算法在实际场景中的落地应用,加速智能体技术的产业化进程。
任职要求
1. 硕士及以上学历,计算机、人工智能、机器学习等相关专业背景,具备扎实的编程功底,熟练掌握主流编程语言及常用算法。
2. 精通大语言模型的基本原理与结构设计,了解智能体技术的核心概念与典型应用,掌握深度学习与强化学习的基础理论与实现方法。
3. 在大模型方向有主导高影响力项目或发表高水平论文者优先;具备大模型训练经验或熟悉强化学习算法者优先。
1. 负责Agent场景下的效果调优,深入探索大语言模型后训练核心技术,如CPT/SFT/RLHF/RLVR等方法,持续提升算法的准确性与运行效率。
2. 搭建大规模高质量数据体系,涵盖数据构建、采集解析及合成等环节,研究从线上真实场景数据到强化学习流程中的数据闭环机制。
3. 关注大模型前沿技术动态,将其应用于算法性能的迭代优化,研究方向覆盖奖励模型的改进与创新、AgentRL、可验证奖励体系的设计与扩展等。
4. 深度融入产品开发与业务实践过程,协同工程、研发、产品团队紧密协作,推动先进算法在实际场景中的落地应用,加速智能体技术的产业化进程。
任职要求
1. 硕士及以上学历,计算机、人工智能、机器学习等相关专业背景,具备扎实的编程功底,熟练掌握主流编程语言及常用算法。
2. 精通大语言模型的基本原理与结构设计,了解智能体技术的核心概念与典型应用,掌握深度学习与强化学习的基础理论与实现方法。
3. 在大模型方向有主导高影响力项目或发表高水平论文者优先;具备大模型训练经验或熟悉强化学习算法者优先。
2026-06-21 14:30
IP属地:浙江杭州
职位福利
硕士3-5年agent大模型训练agentRLLLM后训练

杭州阿里云飞天信息技术有限公司
10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >







