职位详情
岗位描述
1.数据评估体系设计:主导设计以数据驱动的LLM/多模态模型能力评估体系,构建自动化评测分析平台,实现对模型生成内容的多维度、规模化数据分析。
2.数据洞察与优化:运用对抗性分析等方法深度挖掘模型输出数据,精准定位其能力边界与缺陷,构建“评测-反馈-优化”的技术闭环,以数据赋能模型持续迭代。
3.核心数据资产建设:负责评测数据采集、清洗、标注与管理的全链路流程与标准制定,构建覆盖人文、逻辑等领域的高质量、高标准、多样化的评测数据资产。
4.前沿技术探索:追踪全球前沿Benchmark,重点研究基于人类反馈数据(RLHF/DPO)的新一代评估范式,并探索仿真环境测试等颠覆性评测技术,保持行业领先性。
岗位要求
●计算机、人工智能、数学等相关专业,本科及以上学历。
●有过大模型Agent数据收集和分布式数据链路处理经验者优先。
●具备优秀的数据敏感度与逻辑分析能力,能从复杂数据中定位核心问题并给出解决方案。
●扎实的Python编程与算法基础,熟悉PyTorch等主流深度学习框架。
●具备强烈的技术好奇心和自我驱动力,以及出色的跨团队沟通协作能力。
加分项
●主导或核心参与过业界知名开源评测或者数据项目或Benchmark建设。
●拥有丰富的大模型微调(SFT/RLHF)或应用落地项目经验。
●在NeurIPS、ICML、ACL、EMNLP等相关顶会发表过高质量论文。
1.数据评估体系设计:主导设计以数据驱动的LLM/多模态模型能力评估体系,构建自动化评测分析平台,实现对模型生成内容的多维度、规模化数据分析。
2.数据洞察与优化:运用对抗性分析等方法深度挖掘模型输出数据,精准定位其能力边界与缺陷,构建“评测-反馈-优化”的技术闭环,以数据赋能模型持续迭代。
3.核心数据资产建设:负责评测数据采集、清洗、标注与管理的全链路流程与标准制定,构建覆盖人文、逻辑等领域的高质量、高标准、多样化的评测数据资产。
4.前沿技术探索:追踪全球前沿Benchmark,重点研究基于人类反馈数据(RLHF/DPO)的新一代评估范式,并探索仿真环境测试等颠覆性评测技术,保持行业领先性。
岗位要求
●计算机、人工智能、数学等相关专业,本科及以上学历。
●有过大模型Agent数据收集和分布式数据链路处理经验者优先。
●具备优秀的数据敏感度与逻辑分析能力,能从复杂数据中定位核心问题并给出解决方案。
●扎实的Python编程与算法基础,熟悉PyTorch等主流深度学习框架。
●具备强烈的技术好奇心和自我驱动力,以及出色的跨团队沟通协作能力。
加分项
●主导或核心参与过业界知名开源评测或者数据项目或Benchmark建设。
●拥有丰富的大模型微调(SFT/RLHF)或应用落地项目经验。
●在NeurIPS、ICML、ACL、EMNLP等相关顶会发表过高质量论文。
2026-01-06 12:17
IP属地:陕西
职位福利
硕士3-5年模型评测

陕西凯德永驰企业管理咨询有限公司

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










