职位详情
岗位职责:
1. 负责大模型系统的全流程测试:主导大模型系统的部署与测试,涵盖系统搭建、测试用例的设计与执行、结果深度分析及高质量测试报告的输出,确保模型上线质量
2. 构建权威的评测体系:负责大模型及其垂直领域性能的全面评测,主导设计科学、严谨的评估指标与评测维度,确保评测结果的准确性、可复现性与行业公信力
3. 建设与维护评测数据集:主导构建并持续优化适用于大模型的性能测试数据集,确保测试数据的多样性、覆盖面和代表性,以支持模型的快速迭代
4. 制定与执行测试策略:制定详细的测试方案和全生命周期执行计划,严谨把控测试流程,负责测试数据的深度挖掘与问题分析,定位算法性能瓶颈并提出改进建议
5. 推动评测工具链建设:负责或参与自动化测试框架与评测工具链的开发与优化,提升评测工作的效率与规范性
任职要求:
1. 教育背景:计算机科学、数据科学、人工智能或相关专业本科及以上学历
2. 核心技术能力:具备扎实的编程功底,熟悉Python编程,熟练掌握至少一种测试框架(如pytest),并有实际的项目落地经验
3. 大模型专业认知:了解大模型(LLM)架构和原理,熟悉主流模型的性能评测方法和行业标准,能够独立负责数据集构建和复杂测试方案的设计
4. 综合素质:具备出色的逻辑分析能力、问题定位与解决能力,以及良好的跨团队协作和沟通能力。拥有高度的责任心、自驱力,对AI技术评测充满热情,能够适应快速变化的技术环境
5. 加分项:有NLP、机器学习相关背景,或有大模型测试、AI应用开发经验者优先
公司福利:
双休、六险一金,弹性工作制、法定假期/年假、司龄假、带薪病假
1. 负责大模型系统的全流程测试:主导大模型系统的部署与测试,涵盖系统搭建、测试用例的设计与执行、结果深度分析及高质量测试报告的输出,确保模型上线质量
2. 构建权威的评测体系:负责大模型及其垂直领域性能的全面评测,主导设计科学、严谨的评估指标与评测维度,确保评测结果的准确性、可复现性与行业公信力
3. 建设与维护评测数据集:主导构建并持续优化适用于大模型的性能测试数据集,确保测试数据的多样性、覆盖面和代表性,以支持模型的快速迭代
4. 制定与执行测试策略:制定详细的测试方案和全生命周期执行计划,严谨把控测试流程,负责测试数据的深度挖掘与问题分析,定位算法性能瓶颈并提出改进建议
5. 推动评测工具链建设:负责或参与自动化测试框架与评测工具链的开发与优化,提升评测工作的效率与规范性
任职要求:
1. 教育背景:计算机科学、数据科学、人工智能或相关专业本科及以上学历
2. 核心技术能力:具备扎实的编程功底,熟悉Python编程,熟练掌握至少一种测试框架(如pytest),并有实际的项目落地经验
3. 大模型专业认知:了解大模型(LLM)架构和原理,熟悉主流模型的性能评测方法和行业标准,能够独立负责数据集构建和复杂测试方案的设计
4. 综合素质:具备出色的逻辑分析能力、问题定位与解决能力,以及良好的跨团队协作和沟通能力。拥有高度的责任心、自驱力,对AI技术评测充满热情,能够适应快速变化的技术环境
5. 加分项:有NLP、机器学习相关背景,或有大模型测试、AI应用开发经验者优先
公司福利:
双休、六险一金,弹性工作制、法定假期/年假、司龄假、带薪病假
2026-06-27 14:05
IP属地:上海
职位福利
本科3-5年

上海阡视科技有限公司
未融资 · 20-99人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
阿里云无影AI产品质保专家-上海
4-5.5万元/月
测试开发5-10年本科自动化测试经验Java测试工作经验自动化测试性能测试压力测试模型功能测试ai计算机相关专业掌握软件测试理论和流程Python
上海 徐汇区
测试开发工程师(Python方向)
1.5-1.6万元/月
测试开发5-10年本科自动化测试经验Shell自动化测试MySQLlinux系统计算机相关专业软件开发经验Python
上海 浦东新区









