职位详情
职位描述
1 配合产研团队推进大模型评测前期关键筹备工作,主导Agent/模型工具调用(Function Calling)方向的评测数据集建设、评估标准(Rubric)设计,建立覆盖全流程的评估校验机制,确保评测数据的准确性与稳定性,为模型优化提供高质量数据支持。
2 紧密协同产品、算法及工程团队,对接业务场景下的数据需求,推动评测方案实施与效果验证,及时同步评估反馈,识别模型与数据层面的问题,提出可落地的改进建议。
3 负责评测数据与校验结果的汇总分析,梳理评测流程中的关键瓶颈,持续完善评测集架构、评估标准及校验逻辑,提升评测执行效率与对模型迭代的响应能力。
4 跟踪大模型与Agent领域评测技术发展动态,研究适用于工具调用能力的新一代评测方法,结合实际业务场景推动创新方案落地,助力提升Agent功能体验与模型迭代质量。
职位要求
1 本科及以上学历,计算机、人工智能、软件工程等相关专业优先考虑。
2 熟悉Python编程,精通提示词工程,深入掌握Agent与Workflow构建原理及Function Calling的技术逻辑与应用实践。
3 具备大模型评测、数据集构建、算法研发或AI产品相关经验,有评估标准制定、评测集搭建实操经历者优先。
4 对数据质量与模型性能变化具备敏锐洞察力,拥有扎实的逻辑思维与问题定位能力,能独立推动评测任务执行与流程优化。
5 具备良好的团队协作意识、沟通协调能力和项目推进能力,工作主动性强,自我驱动,适应高强度工作节奏,热衷探索AI前沿技术与方法论。
1 配合产研团队推进大模型评测前期关键筹备工作,主导Agent/模型工具调用(Function Calling)方向的评测数据集建设、评估标准(Rubric)设计,建立覆盖全流程的评估校验机制,确保评测数据的准确性与稳定性,为模型优化提供高质量数据支持。
2 紧密协同产品、算法及工程团队,对接业务场景下的数据需求,推动评测方案实施与效果验证,及时同步评估反馈,识别模型与数据层面的问题,提出可落地的改进建议。
3 负责评测数据与校验结果的汇总分析,梳理评测流程中的关键瓶颈,持续完善评测集架构、评估标准及校验逻辑,提升评测执行效率与对模型迭代的响应能力。
4 跟踪大模型与Agent领域评测技术发展动态,研究适用于工具调用能力的新一代评测方法,结合实际业务场景推动创新方案落地,助力提升Agent功能体验与模型迭代质量。
职位要求
1 本科及以上学历,计算机、人工智能、软件工程等相关专业优先考虑。
2 熟悉Python编程,精通提示词工程,深入掌握Agent与Workflow构建原理及Function Calling的技术逻辑与应用实践。
3 具备大模型评测、数据集构建、算法研发或AI产品相关经验,有评估标准制定、评测集搭建实操经历者优先。
4 对数据质量与模型性能变化具备敏锐洞察力,拥有扎实的逻辑思维与问题定位能力,能独立推动评测任务执行与流程优化。
5 具备良好的团队协作意识、沟通协调能力和项目推进能力,工作主动性强,自我驱动,适应高强度工作节奏,热衷探索AI前沿技术与方法论。
2026-06-04 20:06
IP属地:北京
职位福利
本科1-3年AGENT 评测大模型FUNCTION CALLINGRUBRIC评测集构建模型评估提示词工程PythonAI 产品数据构建

外企德科数字技术有限公司
10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
AI训练师(包三餐/双休)
1-2万元/月
数据标注/AI训练师经验不限本科视觉图像算法自然语音处理搜索算法语音算法机器人算法视频算法模式识别推荐算法广告算法导航算法机器学习
北京 海淀区
1.1w+ 大厂直签 质检审核专员-模型训练 双休/五险一金
1-1.3万元/月
数据标注/AI训练师经验不限本科音频标注语音标注视频标注音频质检双休五险一金
北京 海淀区

何先生 · 正德人力资源股份有限公司5日内活跃








