职位详情
岗位职责:
1. 将大模型作为“产品”进行测试:覆盖从问答到Agent的全流程,设计测试用例、执行评测、追踪核心指标,输出分析结论与报告。
2. 构建完整评测体系:搭建数据集、定义评估标准、开发配套工具,实现评测流程自动化、结果可视化。【重点】
3. 通过代码提升效率:使用Python编写脚本或平台,自动化重复性评测任务,降低团队人工投入。
4. 以用户视角发现痛点:深入体验产品流程,复盘典型问题案例,协同算法与产品团队推进问题闭环。
5. 关注前沿评测技术:持续跟进LLM-as-a-Judge、多模态基准测试、自动评测等新方法,具备快速落地能力。
6. 推动AI赋能测试:探索“AI测试AI”的新模式,研发智能测试辅助工具,提升测试工作的智能化水平。
岗位要求:
1. 学历&年限:计算机、人工智能、数学等相关专业本科及以上学历;具备3年以上测试领域工作经验。
2. 专业能力:
(1)具有大模型(LLM)、NLP、图像识别/CV、多模态或强化学习中至少一项方向的算法评测实战经验;
(2)熟练掌握标注质量相关指标(如准确率、召回率、F1、置信度校准)的计算逻辑与分析方法;
(3)熟悉NLP/CV/多模态常用性能指标(如Accuracy、Recall、F1、CIDEr、CLIP-Score等)。
3. 工程实践能力:精通Python,能独立完成测试工具和自动化框架的开发(有Pytest/Unittest/Playwright经验者优先)。
4. 综合素养:
(1)学习能力强,善于钻研,具备良好的沟通协作能力;对质量保障与用户体验高度敏感,能主动发现问题并推动解决;
(2)具备强自驱力与进取心,积极主动,擅长独立思考与阶段性复盘总结;
(3)关注AI大模型技术发展趋势,具备持续学习与创新探索的热情。
1. 将大模型作为“产品”进行测试:覆盖从问答到Agent的全流程,设计测试用例、执行评测、追踪核心指标,输出分析结论与报告。
2. 构建完整评测体系:搭建数据集、定义评估标准、开发配套工具,实现评测流程自动化、结果可视化。【重点】
3. 通过代码提升效率:使用Python编写脚本或平台,自动化重复性评测任务,降低团队人工投入。
4. 以用户视角发现痛点:深入体验产品流程,复盘典型问题案例,协同算法与产品团队推进问题闭环。
5. 关注前沿评测技术:持续跟进LLM-as-a-Judge、多模态基准测试、自动评测等新方法,具备快速落地能力。
6. 推动AI赋能测试:探索“AI测试AI”的新模式,研发智能测试辅助工具,提升测试工作的智能化水平。
岗位要求:
1. 学历&年限:计算机、人工智能、数学等相关专业本科及以上学历;具备3年以上测试领域工作经验。
2. 专业能力:
(1)具有大模型(LLM)、NLP、图像识别/CV、多模态或强化学习中至少一项方向的算法评测实战经验;
(2)熟练掌握标注质量相关指标(如准确率、召回率、F1、置信度校准)的计算逻辑与分析方法;
(3)熟悉NLP/CV/多模态常用性能指标(如Accuracy、Recall、F1、CIDEr、CLIP-Score等)。
3. 工程实践能力:精通Python,能独立完成测试工具和自动化框架的开发(有Pytest/Unittest/Playwright经验者优先)。
4. 综合素养:
(1)学习能力强,善于钻研,具备良好的沟通协作能力;对质量保障与用户体验高度敏感,能主动发现问题并推动解决;
(2)具备强自驱力与进取心,积极主动,擅长独立思考与阶段性复盘总结;
(3)关注AI大模型技术发展趋势,具备持续学习与创新探索的热情。
2026-05-17 13:44
IP属地:北京
职位福利
本科5-10年AI大模型Python

北京联和利泰科技股份有限公司
不需要融资 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >













