职位详情
岗位要求:
● 本科及以上学历,专业不限。
● 具备较强的文字理解与表达能力,逻辑清晰,富有同理心,能够从用户角度思考问题。
● 工作态度严谨、责任心强,执行力出色,具备良好的团队合作意识,能严格执行既定的评测规范与流程。
● 熟悉基础的计算机操作,熟练使用常用办公软件(如Excel、Word),有数据标注或模型评估相关经验者优先考虑。
● 对人工智能及大语言模型领域具有浓厚兴趣,长期使用主流AI工具,并有一定思考和理解;熟悉大模型的基本架构与技术原理。
岗位职责:
● 承担大语言模型(LLM)各类通用能力的日常评测任务,涵盖文本生成、逻辑推理、知识问答、多轮对话、代码生成等核心应用场景的效果评估。
● 依据既定标准与流程,对模型输出进行客观、准确的评分与标注,记录评测中发现的异常现象与模型缺陷,形成完整详实的评测记录。
● 参与自动化评估体系的建设,完成测试题目设计、考查点说明、评分规则制定等相关工作。
● 协助开展评测数据集的整理、清洗与标注,提升样本的覆盖范围与代表性,持续优化数据质量。
● 配合团队推进评测任务执行,及时反馈实际操作中的问题(如标准不明确、样本异常等),共同完善评测策略与流程。
● 本科及以上学历,专业不限。
● 具备较强的文字理解与表达能力,逻辑清晰,富有同理心,能够从用户角度思考问题。
● 工作态度严谨、责任心强,执行力出色,具备良好的团队合作意识,能严格执行既定的评测规范与流程。
● 熟悉基础的计算机操作,熟练使用常用办公软件(如Excel、Word),有数据标注或模型评估相关经验者优先考虑。
● 对人工智能及大语言模型领域具有浓厚兴趣,长期使用主流AI工具,并有一定思考和理解;熟悉大模型的基本架构与技术原理。
岗位职责:
● 承担大语言模型(LLM)各类通用能力的日常评测任务,涵盖文本生成、逻辑推理、知识问答、多轮对话、代码生成等核心应用场景的效果评估。
● 依据既定标准与流程,对模型输出进行客观、准确的评分与标注,记录评测中发现的异常现象与模型缺陷,形成完整详实的评测记录。
● 参与自动化评估体系的建设,完成测试题目设计、考查点说明、评分规则制定等相关工作。
● 协助开展评测数据集的整理、清洗与标注,提升样本的覆盖范围与代表性,持续优化数据质量。
● 配合团队推进评测任务执行,及时反馈实际操作中的问题(如标准不明确、样本异常等),共同完善评测策略与流程。
2026-02-25 14:27
IP属地:北京
职位福利
本科经验不限

博彦科技(深圳)有限公司
已上市 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >









