搜索
登录注册

职位详情

岗位描述:
负责大语言模型在语言能力方向(如对话交互、翻译等)的质量评估体系构建与实施。从语言学与认知科学角度出发,联合产品及研发团队,将语言质量、交互逻辑性、语义连贯性等专业判断转化为可操作、结构化的评估标准与流程。

具体业务:
1、主导模型输出在多语言、多场景下的系统性评测,围绕准确性、流畅度、一致性等维度开展深入分析,形成高质量评测报告,为模型迭代提供核心参考依据。
2、构建并持续优化语言能力评测框架,涵盖评测指标设计、评测数据建设与质量管控;推动从人工专家评估向半自动/自动化评测体系升级,提升评测效率与结果稳定性。
3、将主观语言判断转化为可量化的评估指标,制定标注规则与数据结构,打造高质的人工评估数据集;结合数据分析手段,识别模型在对话与翻译任务中的典型问题(如幻觉生成、歧义处理失误、语境理解偏差等),并推进问题闭环解决。
4、探索前沿评测方法,包括LLM-as-a-judge、对抗性测试、多轮对话评估、跨语言一致性检验等方向,不断提升评测方案的可靠性与扩展能力。

岗位要求:
基础要求
1、优先考虑有AI模型评测体系设计经验,或参与过benchmark/评估流程搭建者,学历条件可适度放宽。
2、需具备POC或项目主导意识,能独立规划评测方案、拆解复杂问题,并推动跨部门协作落地。
3、具备较强的抽象思维与结构化分析能力,善于从复杂语言现象中归纳共性问题;表达清晰,逻辑严密,责任心强。
4、具备出色的项目推动力,能统筹评测方案设计、数据生产及多方协同,确保评测成果有效支撑产品与模型优化决策。

学历背景要求
毕业于优质院校(语言学、心理学、计算语言学、NLP等相关专业优先),具有1-3年相关工作经验;或拥有扎实学术积累且明确志于投身AI评测领域者亦可。

在以下一个或多个领域具备专业积累:
1、语言学 / 应用语言学:掌握语义学、语用学、篇章分析或跨文化沟通理论基础,能够系统剖析语言质量问题(如指代不清、歧义、语境错配等),具备多语言背景者优先。
2、心理学 / 认知科学:了解人类语言理解与产出机制(如认知负荷、会话合作原则等),能从用户视角评估对话系统的自然程度与可理解水平。
3、计算语言学 / NLP相关方向:熟悉机器翻译、对话系统等任务的技术路径与常用评测方式,理解模型能力边界及常见缺陷类型。

核心能力要求
1、能将定性语言评价转化为结构化评估维度与量化指标(如评分体系、评估细则设计等)
2、熟悉或了解主流评测框架与benchmark,具备评测体系搭建或优化实践经验
3、具备数据处理与分析能力(Python / Excel / SQL 等),能从评测结果中挖掘模型短板与改进路径
4、理解大语言模型基本原理及其在对话、翻译任务中的典型表现与局限性
2026-05-20 10:46
IP属地:北京

职位福利

本科1-3年文本分析语义分析
企业发布信息图
四川智服人力资源有限公司
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

数据标注专员-T序列-AI语音效率优化工程师
1.2-1.8万元/月
数据标注/AI训练师1-3年本科ETL数据仓库PythonSqlKafka
北京 海淀区
人工智能训练师
6000-8000元/月
数据标注/AI训练师经验不限本科图像标注文本标注语音标注数据质量校验标注规则优化跨团队协同
北京 海淀区
AI模型训练数据标注员
1.2-1.5万元/月
数据标注/AI训练师1-3年本科视频标注音频标注图像标注
北京 海淀区
大模型数据标注专员
1.5-3万元/月
数据标注/AI训练师1-3年本科AGENT 评测大模型FUNCTION CALLINGRUBRIC评测集构建模型评估提示词工程PythonAI 产品数据构建
北京 海淀区
视频内容标注专员
8000-15000元/月
数据标注/AI训练师经验不限大专视频标注
北京 海淀区
互联网大厂+接受26届+AI视频标注/训练(影视/游戏/音乐/动画相关专业)多城市可选
8000-13000元/月
数据标注/AI训练师经验不限本科语音标注音频标注视频标注图像标注影视相关专业音乐制作动画游戏策划多个城市可选
北京 海淀区
AI训练师-Agent/流程设计-北京
1.3-2万元/月
数据标注/AI训练师经验不限本科
北京 海淀区
AI训练师—奖励模型训练师-北上成都-包三餐
1.2-2万元/月
数据标注/AI训练师经验不限本科
北京 海淀区
AIGC大模型评估-视频领域
1.1-1.3万元/月
数据标注/AI训练师1-3年本科视频标注AIGC
北京 海淀区