职位详情
一.岗位职责
1. 参与智能家居场景下大模型Agent的架构设计与落地应用,打造涵盖意图理解、复杂任务分解、多步逻辑推理、工具调用(ReAct)、记忆机制及智能推荐能力的端到端系统。
2. 采用SFT、强化学习等后训练技术优化垂直领域模型,增强其在多步推理、指令遵循、工具使用和专业问答方面的表现。
3. 基于实际数据反馈构建高质量训练样本,设计奖励机制与迭代优化策略,结合PPO/GRPO等算法搭建强化学习驱动的模型演进路径。
4. 关注大模型与智能体方向的国际最新进展(如多智能体协同、长上下文建模、思维链等),推进先进技术在业务中的实践与转化。
5. 深入洞察智能家居业务需求,沉淀可复用、模块化的算法能力,协同产品与工程团队,持续推动业务升级与技术落地。
二.任职资格
1. 计算机、人工智能等相关专业本科及以上学历,具备扎实的数据结构与算法功底,3年以上相关领域工作经验。
2. 精通Python编程,熟练运用PyTorch等主流深度学习框架,具有良好的编码规范与工程实现能力。
3. 熟悉大语言模型完整训练流程(Pre-train/CPT/SFT/RLHF),掌握常用训练与推理框架(如Megatron-LM、DeepSpeed、vLLM、Sglang等)。
4. 掌握强化学习基本原理,熟悉PPO、DPO、GRPO等核心算法,有基于RLVR的强化学习训练经验者优先考虑。
5. 具备前沿技术敏感度,能将先进算法与实际业务深度融合,产生可衡量的技术价值。
6. 拥有良好的团队协作意识,工作主动性强,学习速度快,能够高效验证新思路并推动技术迭代。
三.加分项
1. 主导过基于ReAct或FunctionCall机制的Agent类生产项目开发。
2. 在大规模模型训练中具备数据合成或强化学习实战经验。
3. 在开源社区贡献过具有广泛影响力的技术项目。
1. 参与智能家居场景下大模型Agent的架构设计与落地应用,打造涵盖意图理解、复杂任务分解、多步逻辑推理、工具调用(ReAct)、记忆机制及智能推荐能力的端到端系统。
2. 采用SFT、强化学习等后训练技术优化垂直领域模型,增强其在多步推理、指令遵循、工具使用和专业问答方面的表现。
3. 基于实际数据反馈构建高质量训练样本,设计奖励机制与迭代优化策略,结合PPO/GRPO等算法搭建强化学习驱动的模型演进路径。
4. 关注大模型与智能体方向的国际最新进展(如多智能体协同、长上下文建模、思维链等),推进先进技术在业务中的实践与转化。
5. 深入洞察智能家居业务需求,沉淀可复用、模块化的算法能力,协同产品与工程团队,持续推动业务升级与技术落地。
二.任职资格
1. 计算机、人工智能等相关专业本科及以上学历,具备扎实的数据结构与算法功底,3年以上相关领域工作经验。
2. 精通Python编程,熟练运用PyTorch等主流深度学习框架,具有良好的编码规范与工程实现能力。
3. 熟悉大语言模型完整训练流程(Pre-train/CPT/SFT/RLHF),掌握常用训练与推理框架(如Megatron-LM、DeepSpeed、vLLM、Sglang等)。
4. 掌握强化学习基本原理,熟悉PPO、DPO、GRPO等核心算法,有基于RLVR的强化学习训练经验者优先考虑。
5. 具备前沿技术敏感度,能将先进算法与实际业务深度融合,产生可衡量的技术价值。
6. 拥有良好的团队协作意识,工作主动性强,学习速度快,能够高效验证新思路并推动技术迭代。
三.加分项
1. 主导过基于ReAct或FunctionCall机制的Agent类生产项目开发。
2. 在大规模模型训练中具备数据合成或强化学习实战经验。
3. 在开源社区贡献过具有广泛影响力的技术项目。
2026-05-25 13:39
IP属地:江西南昌
职位福利
本科1-3年大模型算法PyTorchPythonAGENTSFT

唐人通信技术服务股份有限公司
不需要融资 · 1000-9999人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
AI算法研发工程师
8000-13000元/月
算法工程师1-3年硕士C/C++机器学习图像算法深度学习算法工程化经验优秀开源项目经历模型加速/性能优化Python
南昌 青山湖区

谢女士 · 智成飞桨5日内活跃
NLP深度学习算法工程师
1.6-2万元/月
算法工程师1-3年本科文本分类实体识别文本摘要机器翻译情感分析问答系统TensorFlowPyTorchBERTROBERTA
南昌 青山湖区

王女士 · 柒志科技5日内活跃





