搜索
登录注册

职位详情

岗位职责
1. 评测体系落地与迭代:牵头公司重点大模型产品的全方位评测工作,严格执行评测规范,覆盖模型核心能力等关键维度,输出客观、准确的评估结论。
2. Benchmark构建与优化:自主规划并开发高质量评测基准(benchmark),结合实际业务场景及模型更新需求,持续扩充评测样本、完善评测指标,保障基准的科学性、适用性与前瞻性,为模型优化提供重要支撑。
3. 评测报告输出与解读:基于评测数据撰写专业分析报告,清晰展示模型表现优劣及改进方向,向产品与算法团队提供可执行的优化建议;同步跟进报告应用成效,推动形成“评测-反馈-优化”的完整闭环。
4. 数据供给驱动:依据评测结果精准识别模型短板,制定专项数据供给策略,主导高质训练/微调数据的生产、筛选与标注流程,通过数据质量提升反哺模型能力进化。
5. 评测标准沉淀:融合行业最新进展与内部实践经验,持续完善评测方法论、指标框架与操作流程,沉淀为可复用的团队知识资产,提升整体评测工作的标准化与效率。

任职要求
1. 学历背景:本科及以上学历,软件工程、计算机、数据科学、人工智能、统计学等相关专业,具备3年及以上大模型评测、数据研究相关工作经验。
2. 核心能力:掌握大模型技术基本原理,熟悉主流评测方法、指标与工具,对大模型核心能力等评测维度有实际操作经验。
3. 数据能力:具备扎实的数据处理、分析与可视化技能,熟练运用Python(Pandas、NumPy等)、SQL等工具,能独立完成评测数据的清洗、统计与深度分析。
4. 专业素养:拥有敏锐的细节洞察力与判断力,能够准确辨别模型生成内容的质量差异(特别是视觉审美与文本风格);思维严谨,擅长拆解复杂问题,输出结构化成果。
5. 协作能力:具备良好的跨团队沟通与协作能力,推动评测结论与数据方案有效落地;自我驱动力强,具有主动创新意识,能快速响应业务变化需求。
6. 加分项:有知名AI企业大模型评测或benchmark建设经验者优先;具备图文质量评估、数据标注体系设计经验者优先。
2026-05-20 15:55
IP属地:重庆

职位福利

本科经验不限语音标注音频标注视频标注文本标注图像标注模型评测PROMPT工程RUBRIC
企业发布信息图
支付宝(杭州)数字服务技术有限公司
D轮及以上 · 10000人以上
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

绩效与运营管理专员
6000-8000元/月
运营助理/专员1-3年本科绩效管理
重庆 两江新区
销售专员
3000-8000元/月
运营助理/专员经验不限学历不限
重庆 两江新区
市场助理
5000-10000元/月
运营助理/专员经验不限学历不限
重庆 两江新区 观音桥
培养体系规划与运营专员
1-1.5万元/月
运营助理/专员3-5年本科人才盘点人才发展学习发展模型建设工作分析
重庆 两江新区
抖音运营助理(居家)日结
100-200元/天
兼职运营助理/专员经验不限学历不限居家办公接受居家办公
重庆 两江新区 观音桥
直播运营助理/接受零经验
4000-6000元/月
运营助理/专员经验不限学历不限
重庆 两江新区
新媒体运营助理
4000-6000元/月
运营助理/专员经验不限学历不限不接受居家办公
重庆 两江新区
短视频运营助理招聘|拍摄剪辑方向|接受新人
3000-4000元/月
运营助理/专员经验不限中专/中技学生弹性工作制不接受居家办公
重庆 两江新区 观音桥
包住 5500+500全勤
5000-10000元/月
运营助理/专员经验不限学历不限应届生实习生退伍军人锻炼
重庆 两江新区 观音桥