大模型算法工程师（强化学习方向）

4-7万元/月

海淀区

王女士

已实名

企业认证

贝壳找房（北京）科技有限公司

职位详情

算法工程师

主要职责
1、算法研究与开发：深入探索、复现并优化前沿强化学习方法（如PPO, DQN, SAC, 多智能体RL，离线RL，奖励模型设计等），并推动其在海外实际业务场景中的应用落地。
2、用户增长与留存优化：设计RL智能体，结合个性化推荐、通知策略、激励机制等手段，提升用户的长期留存（LTV）与活跃度，达成增长目标。
3、内容与广告策略优化：运用强化学习技术动态调整面向全球用户的内容生成、信息流排序及广告投放策略，兼顾用户体验与商业收益的最优匹配。
4、大规模数据训练与仿真环境构建：搭建高还原度的仿真系统，支持RL模型的高效训练与验证；处理并分析来自全球的海量、多维度用户行为数据。
5、技术前瞻性探索：密切关注国际AI与强化学习领域的最新动态，探索大语言模型与强化学习融合等新技术在产品创新中的潜在应用。

任职要求
1、计算机科学、人工智能、统计学、应用数学或相关专业硕士及以上学位。
2、具备3年以上强化学习方向的研究或工程实践经验，有完整项目落地成果者优先。
3、精通Python及主流深度学习框架（如PyTorch, TensorFlow）。
4、具有扎实的机器学习基础，熟悉深度学习、概率论、统计推断与优化方法。
5、有大规模数据处理背景，熟练掌握SQL、Pandas、Spark等相关工具。
6、熟悉Linux开发环境，具备良好的工程实现能力，代码风格规范、结构清晰。

2026-06-26 12:20

IP属地：北京

职位福利

硕士3-5年机器学习强化学习