职位详情
1.结合大模型(通用/领域)训练需求,制定高质量数据集规划及建设路线,搭建数据集全生命周期管理体系。
2.负责大规模数据集架构设计、构建工艺落地,统筹跨部门资源,推进数据集搭建、扩容与迭代交付。
3.建立数据集质量评估与追溯机制,监督全流程执行,排查问题并优化,保障数据质量符合大模型训练要求。
4.攻坚数据集构建技术难点,协同算法、工程团队适配模型训练需求,指导团队沉淀工作规范。
5.确保数据集采集、使用等全流程合规,落实安全管控措施,防范数据安全与版权风险。
要求:
1.计算机、人工智能、数学、统计学等相关专业本科及以上学历(硕士/博士优先)。
2.精通数据架构设计、数据治理,深入理解大模型训练对数据集的核心需求,熟悉数据合规相关法规。
3.熟练使用数据治理工具,掌握至少一种编程语言,具备海量数据处理、分布式存储相关能力。
4.有大模型训练数据集构建、数据标注平台搭建、隐私计算相关经验或认证者优先。
5.3-5年及以上数据架构、大规模数据集构建经验,有大模型训练数据集相关经验者优先。
6.主导过1个及以上的高质量数据集建设项目,具备团队管理或指导、跨部门统筹能力。
7.具备架构设计与落地能力,主导过PB级数据湖/仓平台的从0到1建设与演进。
8.具备数据建模与治理实战:参与制定企业级数据模型和指标体系,主导并落地数据质量标准。
9..具备较强的规划统筹、问题解决、跨部门沟通能力,学习能力强,责任心强、工作严谨。
2.负责大规模数据集架构设计、构建工艺落地,统筹跨部门资源,推进数据集搭建、扩容与迭代交付。
3.建立数据集质量评估与追溯机制,监督全流程执行,排查问题并优化,保障数据质量符合大模型训练要求。
4.攻坚数据集构建技术难点,协同算法、工程团队适配模型训练需求,指导团队沉淀工作规范。
5.确保数据集采集、使用等全流程合规,落实安全管控措施,防范数据安全与版权风险。
要求:
1.计算机、人工智能、数学、统计学等相关专业本科及以上学历(硕士/博士优先)。
2.精通数据架构设计、数据治理,深入理解大模型训练对数据集的核心需求,熟悉数据合规相关法规。
3.熟练使用数据治理工具,掌握至少一种编程语言,具备海量数据处理、分布式存储相关能力。
4.有大模型训练数据集构建、数据标注平台搭建、隐私计算相关经验或认证者优先。
5.3-5年及以上数据架构、大规模数据集构建经验,有大模型训练数据集相关经验者优先。
6.主导过1个及以上的高质量数据集建设项目,具备团队管理或指导、跨部门统筹能力。
7.具备架构设计与落地能力,主导过PB级数据湖/仓平台的从0到1建设与演进。
8.具备数据建模与治理实战:参与制定企业级数据模型和指标体系,主导并落地数据质量标准。
9..具备较强的规划统筹、问题解决、跨部门沟通能力,学习能力强,责任心强、工作严谨。
2026-05-31 12:37
IP属地:广东
职位福利
本科5-10年不接受居家办公国内院校优先数据标注数据治理

沃孚信息科技(广州)有限公司


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
东北方言语音标注员(兼职)
100-200元/天
兼职数据标注/AI训练师语音标注经验不限本科方言语音标注方言远程工作接受居家办公国内院校优先标注方法优化数据标注
广州 海珠区 新港东








