职位详情
一.岗位职责
1. 参与智能家居场景下的大模型Agent系统设计与落地,打造涵盖意图理解、任务分解、多步逻辑推理、工具调用(ReAct)、记忆机制及个性化推荐的完整技术链路。
2. 采用SFT、强化学习等后训练策略优化垂直领域模型,增强其在多阶段推理、指令遵循、工具使用和专业问答方面的表现。
3. 基于实际业务反馈构建高质训练样本,设计奖励机制与迭代优化方案,结合PPO/GRPO等算法建立强化学习驱动的模型演进路径。
4. 关注大模型与智能体方向的国际最新进展(如多智能体协同、长上下文处理、思维链技术),推进前沿成果在智能家居场景中的实践应用。
5. 深入洞察智能家居业务需求,提炼可复用、模块化的算法能力,与产品和工程团队高效协作,支撑业务持续迭代升级。
二.任职资格
1. 计算机、人工智能等相关专业本科及以上学历,具备良好的数据结构与算法功底,拥有3年以上相关领域工作经验。
2. 精通Python编程,熟练运用PyTorch等主流深度学习框架,具备规范的编码习惯和扎实的工程实现能力。
3. 熟悉大语言模型完整训练流程(包括预训练、CPT、SFT、RLHF),掌握常用训练与推理框架(如Megatron-LM、DeepSpeed、vLLM、Sglang等)。
4. 掌握强化学习基本原理,了解PPO、DPO、GRPO等核心算法,有基于RLVR框架进行强化学习训练者优先考虑。
5. 具备敏锐的技术洞察力,能将先进算法与复杂业务场景融合,输出具有实际业务价值的技术解决方案。
6. 拥有良好的团队协作意识,工作主动性强,学习能力强,能够快速验证新思路并推动技术落地。
三.加分项
1. 主导过基于ReAct或Function Calling的Agent类生产项目开发。
2. 在大规模模型训练中具备数据合成或强化学习实战经验。
3. 在开源社区发布过具备一定影响力的技术项目。
1. 参与智能家居场景下的大模型Agent系统设计与落地,打造涵盖意图理解、任务分解、多步逻辑推理、工具调用(ReAct)、记忆机制及个性化推荐的完整技术链路。
2. 采用SFT、强化学习等后训练策略优化垂直领域模型,增强其在多阶段推理、指令遵循、工具使用和专业问答方面的表现。
3. 基于实际业务反馈构建高质训练样本,设计奖励机制与迭代优化方案,结合PPO/GRPO等算法建立强化学习驱动的模型演进路径。
4. 关注大模型与智能体方向的国际最新进展(如多智能体协同、长上下文处理、思维链技术),推进前沿成果在智能家居场景中的实践应用。
5. 深入洞察智能家居业务需求,提炼可复用、模块化的算法能力,与产品和工程团队高效协作,支撑业务持续迭代升级。
二.任职资格
1. 计算机、人工智能等相关专业本科及以上学历,具备良好的数据结构与算法功底,拥有3年以上相关领域工作经验。
2. 精通Python编程,熟练运用PyTorch等主流深度学习框架,具备规范的编码习惯和扎实的工程实现能力。
3. 熟悉大语言模型完整训练流程(包括预训练、CPT、SFT、RLHF),掌握常用训练与推理框架(如Megatron-LM、DeepSpeed、vLLM、Sglang等)。
4. 掌握强化学习基本原理,了解PPO、DPO、GRPO等核心算法,有基于RLVR框架进行强化学习训练者优先考虑。
5. 具备敏锐的技术洞察力,能将先进算法与复杂业务场景融合,输出具有实际业务价值的技术解决方案。
6. 拥有良好的团队协作意识,工作主动性强,学习能力强,能够快速验证新思路并推动技术落地。
三.加分项
1. 主导过基于ReAct或Function Calling的Agent类生产项目开发。
2. 在大规模模型训练中具备数据合成或强化学习实战经验。
3. 在开源社区发布过具备一定影响力的技术项目。
2026-06-30 14:10
IP属地:北京
职位福利
本科3-5年

唐人通信技术服务股份有限公司
不需要融资 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
北京丰台区招聘感知定位算法工程师。薪资为15000-30000元/月。岗位要求:1.研究生及以上学历,机器人、计算
1.8-2.6万元/月
算法工程师3-5年硕士国内院校优先图像算法规控算法SLAM算法融合感知算法通信算法深度学习机器学习算法工程化经验
北京 丰台区 科技园区









