大模型评估

8000-12000元/月

渝北区

张先生

已实名

企业认证

支付宝（杭州）数字服务技术有限公司

职位详情

大模型算法

岗位职责
1. 评测体系落地与迭代：牵头公司重点大模型产品的全方位评测工作，严格执行评测规范，覆盖模型核心能力等关键维度，输出客观、准确的评估结论。
2. Benchmark构建与优化：自主设计并产出高质量评测基准（benchmark），结合实际业务场景及模型更新节奏，持续扩充评测样本、完善评测指标，保障基准的科学性、匹配性与前瞻性，为模型优化提供有力支撑。
3. 评测报告输出与解读：基于评测数据撰写专业分析报告，清晰展示模型表现优劣及改进方向，向产品与算法团队提供可执行的优化建议；同步跟进报告应用成效，推动形成“评测-反馈-优化”的完整闭环。
4. 数据供给驱动：依据评测结果精准识别模型短板，制定针对性的数据补充策略，主导高质量训练/微调数据的生成、筛选与标注过程，通过数据质量提升反哺模型能力进化。
5. 评测标准沉淀：融合行业最新进展与内部实践经验，持续完善评测方法论、指标框架与操作流程，沉淀为可复用的团队知识资产，提升整体评测工作的系统性与效率。

任职要求
1. 学历背景：本科及以上学历，软件工程、计算机、数据科学、人工智能、统计学等相关专业，具备3年及以上大模型评测、数据研究相关工作经验。
2. 核心能力：深刻理解大模型技术机制，掌握主流的大模型评测方法、指标与工具，对模型核心能力等评测维度具有实际操作经验。
3. 数据能力：具备扎实的数据处理、分析与可视化技能，熟练运用Python（Pandas、NumPy等）、SQL等工具，能独立完成评测数据的清洗、统计与深度分析。
4. 专业素养：拥有敏锐的细节洞察力与判断力，能够准确辨别模型输出内容的质量差异（特别是视觉审美与文本风格）；逻辑严密，擅长拆解复杂问题，输出结构化成果。
5. 协作能力：具备良好的跨团队沟通与协作能力，能有效推动评测结论与数据方案的落地实施；具备较强的自我驱动力与创新意识，能快速响应业务变化需求。
6. 加分项：有知名AI企业大模型评测或benchmark建设经验者优先；具备图文质量评估、数据标注体系搭建经验者优先。

2026-07-03 13:15

IP属地：重庆

职位福利

本科3-5年图像标注语音标注音频标注视频标注文本标注