搜索
登录注册

职位详情

核心职责
1. 模型后训练与多轮交互对齐(绝对核心)
主导多轮交互强化学习(Multi-turn RLHF)体系搭建:负责从SFT到DPO/RLHF的完整算法链路研发,重点攻克Agent在长周期对话中出现的“目标遗忘”、“逻辑偏移”及“被用户引导偏离主线”的挑战。
深入迭代Iterative DPO流程优化:突破静态数据依赖,构建Self-Play(自我博弈)机制,利用模型与模拟环境交互产生的对话轨迹(Trajectories)持续进行迭代式DPO训练,推动策略动态演进。
开发高拟真用户模拟器(User Simulator):设计并训练具备多样化性格特征(如挑剔、迟疑、情绪化)的“客户代理”,通过对抗性训练(Adversarial Training)增强Agent在复杂对话场景下的应变能力与节奏掌控力。
长周期奖励建模(Long-term Reward Modeling):针对销售类任务设计并调优复合型奖励函数,解决稀疏反馈难题,合理权衡“单轮回复质量”与“最终转化效果(留电/到院)”之间的优先级关系。

2. 数据战略与工程(基石)
垂直领域数据闭环构建:主导从原始销售对话数据到高质量SFT/DPO训练数据的全链路清洗与加工,关键解决“去模板化表达”与“精准指令遵循”之间的协同问题。
高质量合成数据生产:借助GPT-5/Claude-4等强基座模型搭建自动化数据生成管线,规模化产出涵盖Corner Case(边缘场景)的多轮偏好数据(Preference Data),支撑拒绝采样(Rejection Sampling)训练需求。

3. 推理部署与性能优化
承担微调模型的推理加速工作,熟练运用vLLM / SGLang等高性能推理框架,优化KV Cache调度策略,保障多轮会话在显存受限设备(如A800)上的高并发服务能力。
建立自动化评测基准(Benchmark),重点实现对多轮对话连贯性、留联达成率及合规要求的量化评估能力。

必备要求(硬性门槛)
经验背景:
硕士及以上学历,具备3年以上NLP或大模型实际项目经验。
必须拥有“多轮对话Agent”或“任务导向型对话系统”的落地实践经验:亲自处理过多轮交互过程中的一致性维护、幻觉抑制与目标追踪问题。
有头部大模型企业(MiniMax, Moonshot, Zhipu等)Post-training团队核心岗位经历者优先考虑。

核心技术栈(必须全部满足):
精通强化学习与模型对齐技术:深入掌握DPO(Direct Preference Optimization)及其变体(如IPO, KTO),具备Online DPO、Iterative DPO或多轮交互强化学习的实际操作经验,能清晰阐述如何应对数据噪声及防范Reward Hacking现象。
模拟器建设与数据构造能力:具备User Simulator开发经验,熟悉通过Self-Play机制提升模型能力上限的方法论。
工程落地实力:熟练使用PyTorch、DeepSpeed、Megatron-LM等主流框架,具有大规模指令微调(SFT)和强化学习训练中的显存优化经验(支持Tensor Parallelism/ZeRO等技术)。

优先考虑(加分项)
实际参与过“销售/谈判/客服”类强目标驱动场景的对话系统建设,非纯闲聊型(Chitchat)模型经验。
在开源社区有实质贡献:曾为TRL、LLaMA-Factory、vLLM、verl等相关项目提交代码或维护文档。
学术成果积累:在ACL、NeurIPS、ICLR等顶级会议发表过关于RLHF、对话系统、模型对齐方向的研究论文。
2026-06-26 12:19
IP属地:福建厦门

职位福利

硕士3-5年发表算法相关优秀论文团队管理经验大模型算法多模态算法算法工程化经验强化学习参加算法相关竞赛/获奖优秀开源项目经历Python
企业发布信息图
厦门快商通科技股份有限公司
B轮 · 100-499人
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

NLP/大模型算法工程师
2-3万元/月
算法工程师1年以下硕士机器学习大模型算法多模态算法大数据处理框架(Spark
厦门 集美区
AIAgent设计师实习生(资深导师指导)
280-320元/天
算法工程师经验不限硕士深度学习多模态算法Python
厦门 集美区
大语言模型算法后训练工程师(双休)
3-5万元/月
算法工程师3-5年硕士发表算法相关优秀论文团队管理经验大模型算法多模态算法
厦门 集美区
图像算法研发工程师
1-1.5万元/月
算法工程师1-3年本科视觉图像算法C#opencvhalcon机器学习算法
厦门 集美区
AI算法研发工程师
1.6-3万元/月
算法工程师3-5年学历不限
厦门 集美区
图像算法研发工程师
1.1-2万元/月
算法工程师1-3年本科C#机器学习算法视觉图像算法opencvhalcon
厦门 集美区
AIAgent算法工程师
1.5-2万元/月
算法工程师经验不限本科多模态图像算法分布式训练深度学习算法工程化经验大数据处理框架(Spark/Hadoop/Hive)自然语言处理算法多模态算法大模型算法融合感知算法LLM优秀开源项目经历SQL
厦门 集美区
NLP/大模型算法工程师
2-3万元/月
算法工程师1年以下硕士机器学习大模型算法多模态算法大数据处理框架(Spark/Hadoop/Hive)算法工程化经验强化学习推荐算法
厦门 集美区
AI Agent算法工程师
1.5-2万元/月
算法工程师经验不限本科多模态图像算法分布式训练深度学习算法工程化经验大数据处理框架(Spark/Hadoop/Hive)自然语言处理算法多模态算法大模型算法融合感知算法LLM优秀开源项目经历SQL
厦门 集美区
人工智能技术岗(大模型及算法研发方向)
1.5-2万元/月
算法工程师1-3年硕士自然语言处理PyTorchTensorFlowPython多模态生成式AI算法大模型预训练与微调工程内容理解
厦门 集美区