职位详情
岗位职责
1. 评测体系落地与迭代:牵头公司重点大模型产品的全方位评测工作,严格执行评测规范,覆盖模型核心能力等关键维度,输出客观、准确的评估结论。
2. Benchmark构建与优化:自主设计并产出高质量评测基准(benchmark),结合实际业务场景及模型更新节奏,持续扩充评测样本、完善评测指标,保障基准的科学性、匹配性与前瞻性,为模型优化提供有力支撑。
3. 评测报告输出与解读:基于评测数据撰写专业分析报告,清晰展示模型表现优劣及改进方向,向产品与算法团队提供可执行的优化建议;同步跟进报告应用成效,推动形成“评测-反馈-优化”的完整闭环。
4. 数据供给驱动:依据评测结果精准识别模型短板,制定针对性的数据补充策略,主导高质量训练/微调数据的生成、筛选与标注过程,通过数据质量提升反哺模型能力进化。
5. 评测标准沉淀:融合行业最新进展与内部实践经验,持续完善评测方法论、指标框架与操作流程,沉淀为可复用的团队知识资产,提升整体评测工作的系统性与效率。
任职要求
1. 学历背景:本科及以上学历,软件工程、计算机、数据科学、人工智能、统计学等相关专业,具备3年及以上大模型评测、数据研究相关工作经验。
2. 核心能力:深刻理解大模型技术机制,掌握主流的大模型评测方法、指标与工具,对模型核心能力等评测维度具有实际操作经验。
3. 数据能力:具备扎实的数据处理、分析与可视化技能,熟练运用Python(Pandas、NumPy等)、SQL等工具,能独立完成评测数据的清洗、统计与深度分析。
4. 专业素养:拥有敏锐的细节洞察力与判断力,能够准确辨别模型输出内容的质量差异(特别是视觉审美与文本风格);逻辑严密,擅长拆解复杂问题,输出结构化成果。
5. 协作能力:具备良好的跨团队沟通与协作能力,能有效推动评测结论与数据方案的落地实施;具备较强的自我驱动力与创新意识,能快速响应业务变化需求。
6. 加分项:有知名AI企业大模型评测或benchmark建设经验者优先;具备图文质量评估、数据标注体系搭建经验者优先。
1. 评测体系落地与迭代:牵头公司重点大模型产品的全方位评测工作,严格执行评测规范,覆盖模型核心能力等关键维度,输出客观、准确的评估结论。
2. Benchmark构建与优化:自主设计并产出高质量评测基准(benchmark),结合实际业务场景及模型更新节奏,持续扩充评测样本、完善评测指标,保障基准的科学性、匹配性与前瞻性,为模型优化提供有力支撑。
3. 评测报告输出与解读:基于评测数据撰写专业分析报告,清晰展示模型表现优劣及改进方向,向产品与算法团队提供可执行的优化建议;同步跟进报告应用成效,推动形成“评测-反馈-优化”的完整闭环。
4. 数据供给驱动:依据评测结果精准识别模型短板,制定针对性的数据补充策略,主导高质量训练/微调数据的生成、筛选与标注过程,通过数据质量提升反哺模型能力进化。
5. 评测标准沉淀:融合行业最新进展与内部实践经验,持续完善评测方法论、指标框架与操作流程,沉淀为可复用的团队知识资产,提升整体评测工作的系统性与效率。
任职要求
1. 学历背景:本科及以上学历,软件工程、计算机、数据科学、人工智能、统计学等相关专业,具备3年及以上大模型评测、数据研究相关工作经验。
2. 核心能力:深刻理解大模型技术机制,掌握主流的大模型评测方法、指标与工具,对模型核心能力等评测维度具有实际操作经验。
3. 数据能力:具备扎实的数据处理、分析与可视化技能,熟练运用Python(Pandas、NumPy等)、SQL等工具,能独立完成评测数据的清洗、统计与深度分析。
4. 专业素养:拥有敏锐的细节洞察力与判断力,能够准确辨别模型输出内容的质量差异(特别是视觉审美与文本风格);逻辑严密,擅长拆解复杂问题,输出结构化成果。
5. 协作能力:具备良好的跨团队沟通与协作能力,能有效推动评测结论与数据方案的落地实施;具备较强的自我驱动力与创新意识,能快速响应业务变化需求。
6. 加分项:有知名AI企业大模型评测或benchmark建设经验者优先;具备图文质量评估、数据标注体系搭建经验者优先。
2026-05-19 12:55
IP属地:重庆
职位福利
本科3-5年图像标注语音标注音频标注视频标注文本标注

支付宝(杭州)数字服务技术有限公司
D轮及以上 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >








