搜索
登录注册

职位详情

岗位职责
1. 评测体系落地与迭代:牵头公司重点大模型产品的全方位评测工作,严格执行评测规范,覆盖模型核心能力等关键维度,输出客观、准确的评估结论。
2. Benchmark构建与优化:自主设计并产出高质量评测基准(benchmark),结合实际业务场景及模型更新节奏,持续扩充评测样本、完善评测指标,保障基准的科学性、匹配性与前瞻性,为模型优化提供有力支撑。
3. 评测报告输出与解读:基于评测数据撰写专业分析报告,清晰展示模型表现优劣及改进方向,向产品与算法团队提供可执行的优化建议;同步跟进报告应用成效,推动形成“评测-反馈-优化”的完整闭环。
4. 数据供给驱动:依据评测结果精准识别模型短板,制定针对性的数据补充策略,主导高质量训练/微调数据的生成、筛选与标注过程,通过数据质量提升反哺模型能力进化。
5. 评测标准沉淀:融合行业最新进展与内部实践经验,持续完善评测方法论、指标框架与操作流程,沉淀为可复用的团队知识资产,提升整体评测工作的系统性与效率。

任职要求
1. 学历背景:本科及以上学历,软件工程、计算机、数据科学、人工智能、统计学等相关专业,具备3年及以上大模型评测、数据研究相关工作经验。
2. 核心能力:深刻理解大模型技术机制,掌握主流的大模型评测方法、指标与工具,对模型核心能力等评测维度具有实际操作经验。
3. 数据能力:具备扎实的数据处理、分析与可视化技能,熟练运用Python(Pandas、NumPy等)、SQL等工具,能独立完成评测数据的清洗、统计与深度分析。
4. 专业素养:拥有敏锐的细节洞察力与判断力,能够准确辨别模型输出内容的质量差异(特别是视觉审美与文本风格);逻辑严密,擅长拆解复杂问题,输出结构化成果。
5. 协作能力:具备良好的跨团队沟通与协作能力,能有效推动评测结论与数据方案的落地实施;具备较强的自我驱动力与创新意识,能快速响应业务变化需求。
6. 加分项:有知名AI企业大模型评测或benchmark建设经验者优先;具备图文质量评估、数据标注体系搭建经验者优先。
2026-05-19 12:55
IP属地:重庆

职位福利

本科3-5年图像标注语音标注音频标注视频标注文本标注
企业发布信息图
支付宝(杭州)数字服务技术有限公司
D轮及以上 · 10000人以上
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

AI应用经理(集团本部)
2-3万元/月
大模型算法1-3年本科
重庆 渝北区
AI应用经理(集团本部)
2-3万元/月
大模型算法1-3年本科
重庆 渝北区
蚂蚁核心大模型评估专家-子公司编制
1-1.5万元/月
大模型算法1-3年本科大模型模型评测
重庆 渝北区
大模型应用开发工程师(工作地:长春)
1.5-3万元/月
大模型算法经验不限本科
重庆 渝北区
大模型应用开发工程师(工作地:长春)
1.5-3万元/月
大模型算法经验不限本科
重庆 渝北区
AI工程师
1.5-2.5万元/月
大模型算法3-5年本科pythonllama3RAG大模型
重庆 渝中区
AI开发工程师
1.1-1.8万元/月
大模型算法3-5年本科pythonllama3RAG大模型
重庆 渝中区
人工智能工程师
1.5-1.8万元/月
大模型算法3-5年本科图像算法深度学习多模态算法ALIGNTransformerViT
重庆 渝中区
大模型算法工程师
1.8-2万元/月
大模型算法3-5年硕士
重庆 渝中区