文本大模型测评/评估

1.2-1.4万元/月

海淀区

陈女士

已实名

企业认证

四川智服人力资源有限公司

职位详情

数据标注/AI训练师

岗位描述：
负责大语言模型在语言能力方向（如对话交互、翻译等）的质量评估体系构建与实施。从语言学与认知科学角度出发，联合产品及研发团队，将语言质量、交互逻辑性、语义连贯性等专业判断转化为可操作、结构化的评估标准与流程。

具体业务：
1、主导模型输出在多语言、多场景下的系统性评测，围绕准确性、流畅度、一致性等维度开展深入分析，形成高质量评测报告，为模型迭代提供核心参考依据。
2、构建并持续优化语言能力评测框架，涵盖评测指标设计、评测数据建设与质量管控；推动从人工专家评估向半自动/自动化评测体系升级，提升评测效率与结果稳定性。
3、将主观语言判断转化为可量化的评估指标，制定标注规则与数据结构，打造高质的人工评估数据集；结合数据分析手段，识别模型在对话与翻译任务中的典型问题（如幻觉生成、歧义处理失误、语境理解偏差等），并推进问题闭环解决。
4、探索前沿评测方法，包括LLM-as-a-judge、对抗性测试、多轮对话评估、跨语言一致性检验等方向，不断提升评测方案的可靠性与扩展能力。

岗位要求：
基础要求
1、优先考虑有AI模型评测体系设计经验，或参与过benchmark/评估流程搭建者，学历条件可适度放宽。
2、需具备POC或项目主导意识，能独立规划评测方案、拆解复杂问题，并推动跨部门协作落地。
3、具备较强的抽象思维与结构化分析能力，善于从复杂语言现象中归纳共性问题；表达清晰，逻辑严密，责任心强。
4、具备出色的项目推动力，能统筹评测方案设计、数据生产及多方协同，确保评测成果有效支撑产品与模型优化决策。

学历背景要求
毕业于优质院校（语言学、心理学、计算语言学、NLP等相关专业优先），具有1-3年相关工作经验；或拥有扎实学术积累且明确志于投身AI评测领域者亦可。

在以下一个或多个领域具备专业积累：
1、语言学 / 应用语言学：掌握语义学、语用学、篇章分析或跨文化沟通理论基础，能够系统剖析语言质量问题（如指代不清、歧义、语境错配等），具备多语言背景者优先。
2、心理学 / 认知科学：了解人类语言理解与产出机制（如认知负荷、会话合作原则等），能从用户视角评估对话系统的自然程度与可理解水平。
3、计算语言学 / NLP相关方向：熟悉机器翻译、对话系统等任务的技术路径与常用评测方式，理解模型能力边界及常见缺陷类型。

核心能力要求
1、能将定性语言评价转化为结构化评估维度与量化指标（如评分体系、评估细则设计等）
2、熟悉或了解主流评测框架与benchmark，具备评测体系搭建或优化实践经验
3、具备数据处理与分析能力（Python / Excel / SQL 等），能从评测结果中挖掘模型短板与改进路径
4、理解大语言模型基本原理及其在对话、翻译任务中的典型表现与局限性

2026-03-04 11:33

IP属地：北京

职位福利

本科1-3年文本分析语义分析