职位详情
岗位职责:
1. 将大模型视为“产品”进行测试:覆盖从问答到Agent的各类场景,设计测试用例、执行评测流程、追踪核心指标,输出分析结论与完整报告。
2. 搭建系统化评测体系:构建专用数据集、定义评估标准、开发配套工具,实现评测流程自动化、结果可视化。【重点】
3. 通过代码提升效率:使用Python编写脚本或平台,实现重复性评测任务的高效运行,降低团队人工投入。
4. 以用户视角发现痛点:深入体验产品流程,开展Bad Case复盘,协同算法与产品团队推进问题闭环。
5. 关注前沿评测技术:持续跟进LLM-as-a-Judge、多模态基准测试、自动评测等新方法,具备快速验证与落地能力。
6. 推动AI赋能测试:探索“AI测试AI”的创新路径,打造智能化测试辅助工具,提升测试工作的智能化水平。
岗位要求:
1. 学历&年限:计算机、人工智能、数学等相关专业本科及以上学历;具备3年以上测试领域工作经验。
2. 专业能力:
(1)具有大模型(LLM)、NLP、图像识别/CV、多模态或强化学习等至少一个方向的算法评测实际项目经验;
(2)熟练掌握标注质量相关指标(如准确率、召回率、F1、置信度校准)的计算逻辑与分析方法;
(3)熟悉NLP、CV、多模态任务中常用的效果评估指标(如Accuracy、Recall、F1、CIDEr、CLIP-Score等)。
3. 工程实践能力:精通Python语言,能够独立完成测试工具和自动化框架的开发(有Pytest、Unittest、Playwright经验者优先)。
4. 综合素养与热情:
(1)具备强学习能力和良好沟通协作意识,对产品质量与用户体验高度敏感,善于发现问题并推动解决;
(2)拥有强烈自驱力和进取精神,积极主动,擅长独立思考与阶段性复盘总结;
(3)关注AI大模型技术发展趋势,乐于主动学习并开展创新性探索。
1. 将大模型视为“产品”进行测试:覆盖从问答到Agent的各类场景,设计测试用例、执行评测流程、追踪核心指标,输出分析结论与完整报告。
2. 搭建系统化评测体系:构建专用数据集、定义评估标准、开发配套工具,实现评测流程自动化、结果可视化。【重点】
3. 通过代码提升效率:使用Python编写脚本或平台,实现重复性评测任务的高效运行,降低团队人工投入。
4. 以用户视角发现痛点:深入体验产品流程,开展Bad Case复盘,协同算法与产品团队推进问题闭环。
5. 关注前沿评测技术:持续跟进LLM-as-a-Judge、多模态基准测试、自动评测等新方法,具备快速验证与落地能力。
6. 推动AI赋能测试:探索“AI测试AI”的创新路径,打造智能化测试辅助工具,提升测试工作的智能化水平。
岗位要求:
1. 学历&年限:计算机、人工智能、数学等相关专业本科及以上学历;具备3年以上测试领域工作经验。
2. 专业能力:
(1)具有大模型(LLM)、NLP、图像识别/CV、多模态或强化学习等至少一个方向的算法评测实际项目经验;
(2)熟练掌握标注质量相关指标(如准确率、召回率、F1、置信度校准)的计算逻辑与分析方法;
(3)熟悉NLP、CV、多模态任务中常用的效果评估指标(如Accuracy、Recall、F1、CIDEr、CLIP-Score等)。
3. 工程实践能力:精通Python语言,能够独立完成测试工具和自动化框架的开发(有Pytest、Unittest、Playwright经验者优先)。
4. 综合素养与热情:
(1)具备强学习能力和良好沟通协作意识,对产品质量与用户体验高度敏感,善于发现问题并推动解决;
(2)拥有强烈自驱力和进取精神,积极主动,擅长独立思考与阶段性复盘总结;
(3)关注AI大模型技术发展趋势,乐于主动学习并开展创新性探索。
2026-05-27 12:52
IP属地:北京
职位福利
本科5-10年

北京联和利泰科技股份有限公司
不需要融资 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
客户端测试工程师-国际业务
1.2-1.7万元/月
测试工程师3-5年大专JavaiOS/Android测试经验客户端测试自动化测试海外语音产品客户端大厂背景优先Python
北京 海淀区

王女士 · 联想利泰5日内活跃
python测试开发工程师
1.3-1.6万元/月
测试工程师3-5年本科自动化测试经验Shell自动化测试java汽车金融LoadRunnerto bAspectJiraPostmanPython
北京 海淀区

马女士 · 浩鲸科技5日内活跃





