AI大模型评估专家（可带队）

3-5万元/月

东城区

陈先生

已实名

企业认证

中电信人工智能科技（北京）有限公司

职位详情

测试工程师

一、岗位职责
1. 评测体系标准建设：基于语音语义算法（如语音识别、意图识别、对话生成等）及超级智能体的业务场景与技术特征，构建科学合理的评测指标体系，制定可执行的标准规范，并持续优化迭代。设计全面、客观、高效的多维度大模型评测基准（Benchmark），覆盖能力、性能、安全、伦理等关键方面。

2. 深度模型测评：开展对自研大模型与外部竞品模型的系统性评测工作，设计智能化评测流程，结合数据挖掘与分析手段，推动模型效果持续提升。具体包括：
- 能力测评：针对模型在自然语言理解（NLU）、自然语言生成（NLG）、知识问答、逻辑推理、代码生成、多模态等核心能力进行定量与定性评估。在测试过程中准确识别语音语义功能异常（如识别偏差、语义误解、对话断裂等问题），通过日志排查、数据回溯等方式定位根本原因，输出结构化问题报告，协同算法团队完成优化迭代。
- 性能测评：评估语音与语义模型的响应速度、吞吐量以及计算资源占用（GPU/CPU/内存）等关键性能参数。
- 安全与合规测评（AIGC Safety）：系统性检验模型在内容安全（如生成有害信息）、偏见与公平性、事实准确性（幻觉抑制）、鲁棒性（抗干扰能力）和隐私保护等方面的表现水平。

3. 自动化工具链搭建：负责建设和维护自动化模型评测平台及相关工具链，开发标准化评测脚本与高质量评测数据集，提升评测工作的效率与可复现性。

4. 质量体系构建：建立完善的评测质量管理机制，严格把控评测内容质量，支撑模型性能的持续改进。

5. 技术前沿追踪：密切关注国内外大模型评测领域的最新技术发展、主流评测基准（如HELM、MMLU、C-Eval等）及学术研究成果，并将其有效融入内部评测实践。

二、任职要求：
1. 教育背景：计算机科学、人工智能、数学、统计学或相关专业硕士及以上学历；特别优秀的本科候选人也可适当考虑。

2. 技术经验：
- 具备5年以上机器学习/深度学习模型评估、测试或开发经验，熟悉语音语义算法基本原理（如ASR、NLP、LLM等），至少有1年专注于大语言模型（LLM）或同类大规模模型的评测工作；具备语音助手、智能客服、人机对话类产品测试经验者优先。
- 深入掌握Transformer、GPT、BERT等主流大模型的技术架构与实现细节。
- 有评测数据运营管理、数据湖建设、数据源目录管理、存储分布规划及数据清洗经验者优先；涉及数据类型包括语音、视觉理解及多模态内容。

3. 编程与工具能力：
- 熟练掌握Python编程，具备扎实的数据分析与处理能力（熟练使用Pandas、Numpy等常用库）。
- 有使用主流深度学习框架（如PyTorch、TensorFlow）的实际项目经验。
- 具备自动化测试框架或评测平台开发经验者优先。

2026-06-26 14:10

IP属地：北京

职位福利

本科5-10年大模型评测评测机构对接经验能带团队