职位详情
职位描述:
我们正在招聘一名专注于大语言模型(LLM)后训练阶段的算法工程师,负责设计并实现基于在线强化学习(OnlineReinforcementLearning)的技术方案,利用实时用户交互数据持续提升模型表现。
核心职责:
1.算法设计与开发
构建高效的在线强化学习框架,结合实时用户行为反馈(如开口、留联等)优化大语言模型的决策策略。
研究在线学习与离线预训练融合的方法,应对冷启动、数据稀疏及反馈延迟等问题。
制定多目标优化机制,兼顾模型效果(如准确率、多样性)与系统开销(如响应时间、计算资源)。
2.系统实现与优化
搭建高吞吐、低延迟的在线强化学习系统,支持大语言模型的动态更新与线上部署。
优化数据流水线,实现用户行为日志的实时采集、清洗与特征提取。
集成分布式计算平台(如Ray、Flink),提高模型训练和推理的运行效率。
3.效果验证与迭代
采用A/B测试、因果分析等手段评估算法对关键业务指标(如用户留存、满意度)的作用。
持续监控线上模型输出,及时发现并解决策略退化或性能波动问题。
4.跨团队协作
与产品团队协同明确用户反馈信号定义与优化目标,推进数据闭环建设。
与工程团队紧密配合,保障算法在生产环境中的稳定落地与高效运行。
任职要求:
必备条件
1.计算机科学、人工智能、数学等相关专业硕士及以上学位,具备3年以上算法研发经历。
2.熟悉强化学习技术体系:掌握在线强化学习(OnlineRL)、部分可观测马尔可夫决策过程(POMDP)、多臂老虎机(MAB)等理论,具有基于用户反馈的RL实战背景(如Bandit算法、PPO在线微调)。
3.具备大语言模型实践经验:深入理解Transformer结构,拥有LLM后训练阶段(如RLHF、DPO)调优经验,熟悉主流工具链(HuggingFace、DeepSpeed等)。
4.具备扎实工程能力:熟练使用Python,掌握PyTorch/TensorFlow框架,有分布式训练(如Megatron-LM)、高性能计算(CUDA)或在线服务开发经验者优先。
5.数据处理技能:了解实时流式数据处理(Kafka、SparkStreaming)及大规模日志分析技术(ELK栈)。
优先条件:
1.有过利用用户反馈优化LLM的实际项目经验。
2.掌握在线学习中安全探索(SafeExploration)的相关方法。
3.在NeurIPS、ICML、ACL等顶会发表过强化学习、在线学习或大语言模型相关论文。
4.具备高并发在线系统(如推荐系统、广告排序)的开发或性能调优经验。
我们正在招聘一名专注于大语言模型(LLM)后训练阶段的算法工程师,负责设计并实现基于在线强化学习(OnlineReinforcementLearning)的技术方案,利用实时用户交互数据持续提升模型表现。
核心职责:
1.算法设计与开发
构建高效的在线强化学习框架,结合实时用户行为反馈(如开口、留联等)优化大语言模型的决策策略。
研究在线学习与离线预训练融合的方法,应对冷启动、数据稀疏及反馈延迟等问题。
制定多目标优化机制,兼顾模型效果(如准确率、多样性)与系统开销(如响应时间、计算资源)。
2.系统实现与优化
搭建高吞吐、低延迟的在线强化学习系统,支持大语言模型的动态更新与线上部署。
优化数据流水线,实现用户行为日志的实时采集、清洗与特征提取。
集成分布式计算平台(如Ray、Flink),提高模型训练和推理的运行效率。
3.效果验证与迭代
采用A/B测试、因果分析等手段评估算法对关键业务指标(如用户留存、满意度)的作用。
持续监控线上模型输出,及时发现并解决策略退化或性能波动问题。
4.跨团队协作
与产品团队协同明确用户反馈信号定义与优化目标,推进数据闭环建设。
与工程团队紧密配合,保障算法在生产环境中的稳定落地与高效运行。
任职要求:
必备条件
1.计算机科学、人工智能、数学等相关专业硕士及以上学位,具备3年以上算法研发经历。
2.熟悉强化学习技术体系:掌握在线强化学习(OnlineRL)、部分可观测马尔可夫决策过程(POMDP)、多臂老虎机(MAB)等理论,具有基于用户反馈的RL实战背景(如Bandit算法、PPO在线微调)。
3.具备大语言模型实践经验:深入理解Transformer结构,拥有LLM后训练阶段(如RLHF、DPO)调优经验,熟悉主流工具链(HuggingFace、DeepSpeed等)。
4.具备扎实工程能力:熟练使用Python,掌握PyTorch/TensorFlow框架,有分布式训练(如Megatron-LM)、高性能计算(CUDA)或在线服务开发经验者优先。
5.数据处理技能:了解实时流式数据处理(Kafka、SparkStreaming)及大规模日志分析技术(ELK栈)。
优先条件:
1.有过利用用户反馈优化LLM的实际项目经验。
2.掌握在线学习中安全探索(SafeExploration)的相关方法。
3.在NeurIPS、ICML、ACL等顶会发表过强化学习、在线学习或大语言模型相关论文。
4.具备高并发在线系统(如推荐系统、广告排序)的开发或性能调优经验。
2026-06-24 12:12
IP属地:福建厦门
职位福利
硕士3-5年发表算法相关优秀论文团队管理经验大模型算法多模态算法

厦门快商通科技股份有限公司
B轮 · 100-499人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
AIAgent算法工程师
1.5-2万元/月
算法工程师经验不限本科多模态图像算法分布式训练深度学习算法工程化经验大数据处理框架(Spark/Hadoop/Hive)自然语言处理算法多模态算法大模型算法融合感知算法LLM优秀开源项目经历SQL
厦门 集美区
NLP/大模型算法工程师
2-3万元/月
算法工程师1年以下硕士机器学习大模型算法多模态算法大数据处理框架(Spark/Hadoop/Hive)算法工程化经验强化学习推荐算法
厦门 集美区
AI Agent算法工程师
1.5-2万元/月
算法工程师经验不限本科多模态图像算法分布式训练深度学习算法工程化经验大数据处理框架(Spark/Hadoop/Hive)自然语言处理算法多模态算法大模型算法融合感知算法LLM优秀开源项目经历SQL
厦门 集美区
人工智能技术岗(大模型及算法研发方向)
1.5-2万元/月
算法工程师1-3年硕士自然语言处理PyTorchTensorFlowPython多模态生成式AI算法大模型预训练与微调工程内容理解
厦门 集美区
大语言模型算法后训练工程师(双休)
4-6万元/月
算法工程师3-5年硕士发表算法相关优秀论文团队管理经验大模型算法多模态算法算法工程化经验强化学习参加算法相关竞赛/获奖优秀开源项目经历Python
厦门 集美区






