职位详情
岗位要求:
● 本科及以上学历,专业不限。
● 具备较强的文字理解与表达能力,逻辑清晰,富有同理心,能够从用户角度思考问题。
● 工作态度严谨、责任心强,执行力突出,具备良好的团队合作意识,能严格执行既定的评测规范与操作流程。
● 掌握基础的计算机操作,熟练使用常用办公软件(如Excel、Word),有数据标注或模型评估相关经验者优先考虑。
● 对人工智能及大语言模型领域具备一定兴趣,长期使用主流AI工具,并形成个人理解与观点;熟悉大模型的基本技术原理与架构体系。
岗位职责:
● 承担大语言模型(LLM)各项通用能力的实测工作,涵盖文本生成、逻辑推理、知识问答、多轮对话、代码生成等核心应用场景的效果评估。
● 依据既定标准和流程,对模型输出结果进行准确评分与标注,记录评测中发现的异常现象与模型缺陷,形成完整的评测日志文档。
● 参与自动化评估集的建设,完成测试题目的设计、考查点说明撰写以及评分规则制定等工作。
● 协助开展评测数据集的整理、清洗和标注任务,提升样本覆盖范围与代表性,持续优化数据质量。
● 配合团队推进评测任务执行,及时反馈实际操作中的问题(如标准不明确、样本异常等),共同完善评测策略与流程。
● 本科及以上学历,专业不限。
● 具备较强的文字理解与表达能力,逻辑清晰,富有同理心,能够从用户角度思考问题。
● 工作态度严谨、责任心强,执行力突出,具备良好的团队合作意识,能严格执行既定的评测规范与操作流程。
● 掌握基础的计算机操作,熟练使用常用办公软件(如Excel、Word),有数据标注或模型评估相关经验者优先考虑。
● 对人工智能及大语言模型领域具备一定兴趣,长期使用主流AI工具,并形成个人理解与观点;熟悉大模型的基本技术原理与架构体系。
岗位职责:
● 承担大语言模型(LLM)各项通用能力的实测工作,涵盖文本生成、逻辑推理、知识问答、多轮对话、代码生成等核心应用场景的效果评估。
● 依据既定标准和流程,对模型输出结果进行准确评分与标注,记录评测中发现的异常现象与模型缺陷,形成完整的评测日志文档。
● 参与自动化评估集的建设,完成测试题目的设计、考查点说明撰写以及评分规则制定等工作。
● 协助开展评测数据集的整理、清洗和标注任务,提升样本覆盖范围与代表性,持续优化数据质量。
● 配合团队推进评测任务执行,及时反馈实际操作中的问题(如标准不明确、样本异常等),共同完善评测策略与流程。
2026-02-25 14:47
IP属地:四川成都
职位福利
本科及以上3-5年

博彦科技(深圳)有限公司
已上市 · 6人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >







