搜索
登录注册

职位详情

一、岗位职责
1. 评测体系标准建设:基于语音语义算法(如语音识别、意图识别、对话生成等)及超级智能体的业务场景与技术特征,构建科学合理的评测指标体系,制定可执行的标准规范,并持续优化迭代。设计全面、客观、高效的多维度大模型评测基准(Benchmark),覆盖能力、性能、安全、伦理等关键方面。

2. 深度模型测评:开展对自研大模型与外部竞品模型的系统性评测工作,设计智能化评测流程,结合数据挖掘与分析手段,推动模型效果持续提升。具体包括:
- 能力测评:针对模型在自然语言理解(NLU)、自然语言生成(NLG)、知识问答、逻辑推理、代码生成、多模态等核心能力进行定量与定性评估。在测试过程中准确识别语音语义功能异常(如识别偏差、语义误解、对话断裂等问题),通过日志排查、数据回溯等方式定位根本原因,输出结构化问题报告,协同算法团队完成优化迭代。
- 性能测评:评估语音与语义模型的响应速度、吞吐量以及计算资源占用(GPU/CPU/内存)等关键性能参数。
- 安全与合规测评(AIGC Safety):系统性检验模型在内容安全(如生成有害信息)、偏见与公平性、事实准确性(幻觉抑制)、鲁棒性(抗干扰能力)和隐私保护等方面的表现水平。

3. 自动化工具链搭建:负责建设和维护自动化模型评测平台及相关工具链,开发标准化评测脚本与高质量评测数据集,提升评测工作的效率与可复现性。

4. 质量体系构建:建立完善的评测质量管理机制,严格把控评测内容质量,支撑模型性能的持续改进。

5. 技术前沿追踪:密切关注国内外大模型评测领域的最新技术发展、主流评测基准(如HELM、MMLU、C-Eval等)及学术研究成果,并将其有效融入内部评测实践。

二、任职要求:
1. 教育背景:计算机科学、人工智能、数学、统计学或相关专业硕士及以上学历;特别优秀的本科候选人也可适当考虑。

2. 技术经验:
- 具备5年以上机器学习/深度学习模型评估、测试或开发经验,熟悉语音语义算法基本原理(如ASR、NLP、LLM等),至少有1年专注于大语言模型(LLM)或同类大规模模型的评测工作;具备语音助手、智能客服、人机对话类产品测试经验者优先。
- 深入掌握Transformer、GPT、BERT等主流大模型的技术架构与实现细节。
- 有评测数据运营管理、数据湖建设、数据源目录管理、存储分布规划及数据清洗经验者优先;涉及数据类型包括语音、视觉理解及多模态内容。

3. 编程与工具能力:
- 熟练掌握Python编程,具备扎实的数据分析与处理能力(熟练使用Pandas、Numpy等常用库)。
- 有使用主流深度学习框架(如PyTorch、TensorFlow)的实际项目经验。
- 具备自动化测试框架或评测平台开发经验者优先。
2026-06-26 14:10
IP属地:北京

职位福利

本科5-10年大模型评测评测机构对接经验能带团队
企业发布信息图
中电信人工智能科技(北京)有限公司
不需要融资 · 1000-9999人
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

测试工程师(银行项目/13薪)
8000-15000元/月
测试工程师3-5年本科软件测试自动化测试性能测试JavaJmeter功能测试信贷
北京 东城区
测试工程师-外派
1-1.3万元/月
测试工程师5-10年本科自动化测试黑盒数据库(SQL)GIT/GITLAB性能测试白盒测试计算机相关专业BUG跟踪工具
北京 东城区
初中级银行系统测试
9000-13000元/月
测试工程师3-5年本科SQL
北京 东城区
AI交付质量管控工程师
2-3.5万元/月
测试工程师3-5年本科功能测试AI数据中台交付
北京 东城区
数据中心测试培训工程师
1.2-1.5万元/月
测试工程师3-5年本科职业与技能培训数据中心运维电气暖通培训
北京 东城区
测试工程师(财务系统,远程面试)
1.1-1.8万元/月
测试工程师3-5年本科软件测试系统测试性能测试ShellPostmanJmeterSeleniumERP系统供应链系统财务系统
北京 东城区
测试工程师(工作地点:邢台)
7000-8000元/月
测试工程师1-3年大专测试工作经验MySQL功能测试掌握软件测试理论和流程
北京 东城区
测试工程师
1.1-1.4万元/月
测试工程师3-5年本科自动化测试经验Java测试工作经验MySQL功能测试软件测试JMeter软件开发经验
北京 东城区
测试工程师(移动端信贷)
1.5-2.6万元/月
测试工程师本科
北京 东城区