职位详情
岗位职责:
1. 将大模型作为产品进行测试:覆盖从问答到Agent的各类场景,设计测试用例、执行评测流程、追踪核心指标,输出分析结论与报告。
2. 搭建完整的评测体系:构建数据集、定义评估标准、开发配套工具,实现评测流程自动化、结果可视化。【重点】
3. 通过代码提升效率:使用Python编写脚本及平台工具,自动化重复性评测任务,降低团队人工投入。
4. 以用户视角发现痛点:深入体验产品流程,复盘典型问题案例,协同算法与产品团队推动问题闭环解决。
5. 关注前沿评测技术:持续跟进LLM-as-a-Judge、多模态评测集、自动评估等新方法,具备快速落地应用能力。
6. 探索AI在测试中的应用:实践“用AI测试AI”的理念,研发智能测试助手,推动测试工作智能化升级。
1. 将大模型作为产品进行测试:覆盖从问答到Agent的各类场景,设计测试用例、执行评测流程、追踪核心指标,输出分析结论与报告。
2. 搭建完整的评测体系:构建数据集、定义评估标准、开发配套工具,实现评测流程自动化、结果可视化。【重点】
3. 通过代码提升效率:使用Python编写脚本及平台工具,自动化重复性评测任务,降低团队人工投入。
4. 以用户视角发现痛点:深入体验产品流程,复盘典型问题案例,协同算法与产品团队推动问题闭环解决。
5. 关注前沿评测技术:持续跟进LLM-as-a-Judge、多模态评测集、自动评估等新方法,具备快速落地应用能力。
6. 探索AI在测试中的应用:实践“用AI测试AI”的理念,研发智能测试助手,推动测试工作智能化升级。
2026-05-12 13:19
IP属地:北京
职位福利
本科5-10年

北京联和利泰科技股份有限公司
不需要融资 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >











