职位详情
主要职责
1、算法研究与开发: 深入探索、复现并优化前沿强化学习方法(如PPO, DQN, SAC, 多智能体RL,离线RL,奖励模型设计等),并推动其在海外实际业务场景中的应用落地。
2、用户增长与留存优化: 设计RL智能体,结合个性化推荐、通知策略、激励机制等手段,提升用户的长期留存(LTV)与活跃度,达成增长目标。
3、内容与广告策略优化: 运用强化学习技术动态调整面向全球用户的内容生成、信息流排序及广告投放策略,兼顾用户体验与商业收益的最优匹配。
4、大规模数据训练与仿真环境构建: 搭建高还原度的仿真系统,支持RL模型的高效训练与验证;处理并分析来自全球的海量、多维度用户行为数据。
5、技术前瞻性探索: 密切关注国际AI与强化学习领域的最新动态,探索大语言模型与强化学习融合等新技术在产品创新中的潜在应用。
任职要求
1、计算机科学、人工智能、统计学、应用数学或相关专业硕士及以上学位。
2、具备3年以上强化学习方向的研究或工程实践经验,有完整项目落地成果者优先。
3、精通Python及主流深度学习框架(如PyTorch, TensorFlow)。
4、具有扎实的机器学习基础,熟悉深度学习、概率论、统计推断与优化方法。
5、有大规模数据处理背景,熟练掌握SQL、Pandas、Spark等相关工具。
6、熟悉Linux开发环境,具备良好的工程实现能力,代码风格规范、结构清晰。
1、算法研究与开发: 深入探索、复现并优化前沿强化学习方法(如PPO, DQN, SAC, 多智能体RL,离线RL,奖励模型设计等),并推动其在海外实际业务场景中的应用落地。
2、用户增长与留存优化: 设计RL智能体,结合个性化推荐、通知策略、激励机制等手段,提升用户的长期留存(LTV)与活跃度,达成增长目标。
3、内容与广告策略优化: 运用强化学习技术动态调整面向全球用户的内容生成、信息流排序及广告投放策略,兼顾用户体验与商业收益的最优匹配。
4、大规模数据训练与仿真环境构建: 搭建高还原度的仿真系统,支持RL模型的高效训练与验证;处理并分析来自全球的海量、多维度用户行为数据。
5、技术前瞻性探索: 密切关注国际AI与强化学习领域的最新动态,探索大语言模型与强化学习融合等新技术在产品创新中的潜在应用。
任职要求
1、计算机科学、人工智能、统计学、应用数学或相关专业硕士及以上学位。
2、具备3年以上强化学习方向的研究或工程实践经验,有完整项目落地成果者优先。
3、精通Python及主流深度学习框架(如PyTorch, TensorFlow)。
4、具有扎实的机器学习基础,熟悉深度学习、概率论、统计推断与优化方法。
5、有大规模数据处理背景,熟练掌握SQL、Pandas、Spark等相关工具。
6、熟悉Linux开发环境,具备良好的工程实现能力,代码风格规范、结构清晰。
2026-06-26 12:20
IP属地:北京
职位福利
硕士3-5年机器学习强化学习

贝壳找房(北京)科技有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
灵巧手机器人仿真算法工程师
3.5-6万元/月
算法工程师1-3年硕士发表算法相关优秀论文机器学习多模态算法算法工程化经验强化学习参加算法相关竞赛/获奖模型加速/性能优化Python
北京 海淀区











