职位详情
(客户项目现场驻场)
岗位职责:
1.参与大语言模型(LLM)后训练全流程的优化工作,涵盖领域能力增强、推理对齐等方向,推动LLM在商业地产场景下的招商沟通、品牌布局、铺位推荐等实际应用落地;
2.结合具体业务需求推进语料采集与整理,研究高质量训练数据的自动构造方法,搭建高效运转的线上数据闭环体系;
3.实现并落地SFT/RLHF/DPO/PPO/GRPO等算法,探索多目标奖励建模、过程监督等前沿技术路径,提升模型在指令理解、逻辑推导、多任务适应等方面的表现;
4.建立模型效果评估机制,制定自动化评测方案,持续追踪和分析模型迭代成效。
职位要求:
1.计算机科学、人工智能、数学等相关专业硕士及以上学位;
2.熟悉大语言模型技术体系,掌握SFT、RM、RLHF、数据合成等关键技术原理;
3.掌握Transformer架构及SFT/RLHF/DPO/PPO/GRPO等主流训练算法;
4.精通Python与PyTorch框架,了解Transformer、MoE等核心网络结构;
5.具备扎实的工程实现能力,熟练使用pytorch,掌握DeepSpeed、Megatron等分布式训练工具。
岗位职责:
1.参与大语言模型(LLM)后训练全流程的优化工作,涵盖领域能力增强、推理对齐等方向,推动LLM在商业地产场景下的招商沟通、品牌布局、铺位推荐等实际应用落地;
2.结合具体业务需求推进语料采集与整理,研究高质量训练数据的自动构造方法,搭建高效运转的线上数据闭环体系;
3.实现并落地SFT/RLHF/DPO/PPO/GRPO等算法,探索多目标奖励建模、过程监督等前沿技术路径,提升模型在指令理解、逻辑推导、多任务适应等方面的表现;
4.建立模型效果评估机制,制定自动化评测方案,持续追踪和分析模型迭代成效。
职位要求:
1.计算机科学、人工智能、数学等相关专业硕士及以上学位;
2.熟悉大语言模型技术体系,掌握SFT、RM、RLHF、数据合成等关键技术原理;
3.掌握Transformer架构及SFT/RLHF/DPO/PPO/GRPO等主流训练算法;
4.精通Python与PyTorch框架,了解Transformer、MoE等核心网络结构;
5.具备扎实的工程实现能力,熟练使用pytorch,掌握DeepSpeed、Megatron等分布式训练工具。
2026-05-21 14:24
IP属地:北京
职位福利
本科经验不限SFT营销行业工程实现RLHF大模型训练地产行业Python

浙江实在智能科技有限公司
C轮 · 100-499人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >












