大语言模型算法后训练工程师（双休）

3-5万元/月

厦门·集美区

黄女士

已实名

企业认证

厦门快商通科技股份有限公司

职位详情

算法工程师

职位描述：
我们正在招聘一名专注于大语言模型（LLM）后训练阶段的算法工程师，负责设计并实现基于在线强化学习（OnlineReinforcementLearning）的技术方案，利用实时用户交互数据持续提升模型表现。

核心职责：
1.算法设计与开发
构建高效的在线强化学习框架，结合实时用户行为反馈（如开口、留联等）优化大语言模型的决策策略。
研究在线学习与离线预训练融合的方法，应对冷启动、数据稀疏及反馈延迟等问题。
制定多目标优化机制，兼顾模型效果（如准确率、多样性）与系统开销（如响应时间、计算资源）。

2.系统实现与优化
搭建高吞吐、低延迟的在线强化学习系统，支持大语言模型的动态更新与线上部署。
优化数据流水线，实现用户行为日志的实时采集、清洗与特征提取。
集成分布式计算平台（如Ray、Flink），提高模型训练和推理的运行效率。

3.效果验证与迭代
采用A/B测试、因果分析等手段评估算法对关键业务指标（如用户留存、满意度）的作用。
持续监控线上模型输出，及时发现并解决策略退化或性能波动问题。

4.跨团队协作
与产品团队协同明确用户反馈信号定义与优化目标，推进数据闭环建设。
与工程团队紧密配合，保障算法在生产环境中的稳定落地与高效运行。

任职要求：
必备条件
1.计算机科学、人工智能、数学等相关专业硕士及以上学位，具备3年以上算法研发经历。
2.熟悉强化学习技术体系：掌握在线强化学习（OnlineRL）、部分可观测马尔可夫决策过程（POMDP）、多臂老虎机（MAB）等理论，具有基于用户反馈的RL实战背景（如Bandit算法、PPO在线微调）。
3.具备大语言模型实践经验：深入理解Transformer结构，拥有LLM后训练阶段（如RLHF、DPO）调优经验，熟悉主流工具链（HuggingFace、DeepSpeed等）。
4.具备扎实工程能力：熟练使用Python，掌握PyTorch/TensorFlow框架，有分布式训练（如Megatron-LM）、高性能计算（CUDA）或在线服务开发经验者优先。
5.数据处理技能：了解实时流式数据处理（Kafka、SparkStreaming）及大规模日志分析技术（ELK栈）。

优先条件：
1.有过利用用户反馈优化LLM的实际项目经验。
2.掌握在线学习中安全探索（SafeExploration）的相关方法。
3.在NeurIPS、ICML、ACL等顶会发表过强化学习、在线学习或大语言模型相关论文。
4.具备高并发在线系统（如推荐系统、广告排序）的开发或性能调优经验。

2026-06-24 12:12

IP属地：福建厦门

职位福利

硕士3-5年发表算法相关优秀论文团队管理经验大模型算法多模态算法