职位详情
职位描述
1、负责大语言模型输出内容的质量评估,结合业务目标、模型能力范围及产品实际需求,设计并持续迭代优化评估方案、标准与流程。
2、深入掌握国内外AI产品及模型表现,针对核心竞品开展系统性测评,涵盖内容质量、指令遵循等关键维度,输出具备洞察力的分析结论与报告,支撑模型迭代与产品决策。
3、主导人工评估项目的全流程管理,包括需求对接、方案规划、执行监督、质量核查、结果复盘与经验沉淀,提升任务交付效率与结果可靠性。
4、基于评估数据进行深度分析,识别模型能力瓶颈、用户体验问题及与竞品的差异,提炼核心发现,提出可落地的改进建议,推动问题有效闭环。
职位要求
专业能力
1、必须具备AI模型评估、内容评测、策略评估或相关项目实践经验,有成熟竞品测评经验者优先;具备小红书、腾讯、阿里、Kimi、科大讯飞等相关团队或项目背景者更佳。
2、对文本内容质量具有敏锐判断力,具备出色的文字感知能力,能准确识别并拆解不同文体下的生成内容问题。
3、具备扎实的数据分析能力,熟练运用Excel等工具完成数据整理、分析与结论归纳,能够从评估数据中快速捕捉问题并输出结构化报告。
4、具备良好的项目推动力,可与产品、研发、数据等多方团队高效协作,保障多任务并行高效落地。
5、对大语言模型、AIGC产品及行业发展趋势有浓厚兴趣与理解,熟悉Prompt Engineering、Workflow构建、自动评估方法者优先考虑。
背景要求
1、本科及以上学历,双一流/QS200院校毕业者优先,硕士学历优先。
2、具备2-5年相关工作经验;若拥有扎实的AI模型评测经历,尤其在方案设计与项目推动方面非纯执行角色,学历与年限可适度放宽。
3、本岗位非一线执行岗,期望候选人具备较强的逻辑思维、统筹协调、问题解决及结果导向意识。
4、思维开放灵活,不拘泥定式,学习能力强,对AI驱动内容创作与模型能力发展保持高度热情;沟通表达清晰,工作细致严谨,富有责任心。
1、负责大语言模型输出内容的质量评估,结合业务目标、模型能力范围及产品实际需求,设计并持续迭代优化评估方案、标准与流程。
2、深入掌握国内外AI产品及模型表现,针对核心竞品开展系统性测评,涵盖内容质量、指令遵循等关键维度,输出具备洞察力的分析结论与报告,支撑模型迭代与产品决策。
3、主导人工评估项目的全流程管理,包括需求对接、方案规划、执行监督、质量核查、结果复盘与经验沉淀,提升任务交付效率与结果可靠性。
4、基于评估数据进行深度分析,识别模型能力瓶颈、用户体验问题及与竞品的差异,提炼核心发现,提出可落地的改进建议,推动问题有效闭环。
职位要求
专业能力
1、必须具备AI模型评估、内容评测、策略评估或相关项目实践经验,有成熟竞品测评经验者优先;具备小红书、腾讯、阿里、Kimi、科大讯飞等相关团队或项目背景者更佳。
2、对文本内容质量具有敏锐判断力,具备出色的文字感知能力,能准确识别并拆解不同文体下的生成内容问题。
3、具备扎实的数据分析能力,熟练运用Excel等工具完成数据整理、分析与结论归纳,能够从评估数据中快速捕捉问题并输出结构化报告。
4、具备良好的项目推动力,可与产品、研发、数据等多方团队高效协作,保障多任务并行高效落地。
5、对大语言模型、AIGC产品及行业发展趋势有浓厚兴趣与理解,熟悉Prompt Engineering、Workflow构建、自动评估方法者优先考虑。
背景要求
1、本科及以上学历,双一流/QS200院校毕业者优先,硕士学历优先。
2、具备2-5年相关工作经验;若拥有扎实的AI模型评测经历,尤其在方案设计与项目推动方面非纯执行角色,学历与年限可适度放宽。
3、本岗位非一线执行岗,期望候选人具备较强的逻辑思维、统筹协调、问题解决及结果导向意识。
4、思维开放灵活,不拘泥定式,学习能力强,对AI驱动内容创作与模型能力发展保持高度热情;沟通表达清晰,工作细致严谨,富有责任心。
2026-05-19 13:28
IP属地:北京
职位福利
本科1-3年内容评测策略评测项目经验

中电金信软件有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










