职位详情
岗位一:数据治理工程师
岗位职责:
1. 负责大模型训练与应用中多模态数据(文本、图像、代码、音视频等)从采集到归档的全生命周期管理,涵盖数据清洗、去重、标注、结构化转换、质量评估及标准化建模工作;
2. 根据预训练、指令微调、强化学习等不同阶段的模型需求,构建高质量且多样化的数据集,设计并执行数据筛选机制与质量评分体系,持续提升数据对模型效果的支撑能力;
3. 制定并优化数据治理规范与操作流程,推进数据标准制定、元数据管理、数据血缘追踪等能力建设,增强数据可追溯性与复用水平;
4. 搭建自动化数据处理流水线,运用机器学习与大语言模型技术实现低质数据识别、敏感信息屏蔽、语义重复判断、噪声清除等功能;
5. 配合算法团队开展数据探查与偏差诊断,定位数据分布变化、标签错误、采样不均等问题,并提出可行优化方案;
6. 遵循数据安全与隐私合规要求,实施数据脱敏、匿名处理、权限管控等措施,保障数据采集与使用的合法性与合规性;
7. 联动产品、算法、开发等多方团队,推动数据治理体系在实际业务场景中的落地与执行;
8. 完成上级安排的其他相关工作任务。
任职要求:
1. 本科及以上学历,计算机科学、大数据技术、人工智能或相关专业背景,具有扎实的数据处理理论功底;
2. 精通Python、SQL等编程语言,具备良好编码规范,熟练使用Pandas、NumPy等主流数据处理工具,能够高效处理非结构化与半结构化数据;
3. 熟悉常见文件格式及数据存储系统;
4. 掌握NLP基础技术(如分词、命名实体识别、文本分类、相似度计算)和CV基本处理流程(如图像去噪、关键帧提取、目标检测标注),有大模型预训练语料构建经验者优先;
5. 具备敏锐的数据洞察力与逻辑分析能力,能在海量复杂数据中识别质量问题(如冗余、偏见、噪声、不一致)并设计有效应对策略;
6. 熟悉数据质量评估维度(完整性、准确性、一致性、时效性、唯一性)及相关治理方法论者优先;
7. 了解数据安全与隐私保护机制,掌握常用脱敏技术;
8. 具备良好的沟通协调能力和团队合作意识,能够跨部门推动数据标准实施,具备技术文档编写与汇报能力;
9. 有在AI企业、大型互联网公司或数据服务类平台从事数据治理、数据中台建设经验者优先。
岗位职责:
1. 负责大模型训练与应用中多模态数据(文本、图像、代码、音视频等)从采集到归档的全生命周期管理,涵盖数据清洗、去重、标注、结构化转换、质量评估及标准化建模工作;
2. 根据预训练、指令微调、强化学习等不同阶段的模型需求,构建高质量且多样化的数据集,设计并执行数据筛选机制与质量评分体系,持续提升数据对模型效果的支撑能力;
3. 制定并优化数据治理规范与操作流程,推进数据标准制定、元数据管理、数据血缘追踪等能力建设,增强数据可追溯性与复用水平;
4. 搭建自动化数据处理流水线,运用机器学习与大语言模型技术实现低质数据识别、敏感信息屏蔽、语义重复判断、噪声清除等功能;
5. 配合算法团队开展数据探查与偏差诊断,定位数据分布变化、标签错误、采样不均等问题,并提出可行优化方案;
6. 遵循数据安全与隐私合规要求,实施数据脱敏、匿名处理、权限管控等措施,保障数据采集与使用的合法性与合规性;
7. 联动产品、算法、开发等多方团队,推动数据治理体系在实际业务场景中的落地与执行;
8. 完成上级安排的其他相关工作任务。
任职要求:
1. 本科及以上学历,计算机科学、大数据技术、人工智能或相关专业背景,具有扎实的数据处理理论功底;
2. 精通Python、SQL等编程语言,具备良好编码规范,熟练使用Pandas、NumPy等主流数据处理工具,能够高效处理非结构化与半结构化数据;
3. 熟悉常见文件格式及数据存储系统;
4. 掌握NLP基础技术(如分词、命名实体识别、文本分类、相似度计算)和CV基本处理流程(如图像去噪、关键帧提取、目标检测标注),有大模型预训练语料构建经验者优先;
5. 具备敏锐的数据洞察力与逻辑分析能力,能在海量复杂数据中识别质量问题(如冗余、偏见、噪声、不一致)并设计有效应对策略;
6. 熟悉数据质量评估维度(完整性、准确性、一致性、时效性、唯一性)及相关治理方法论者优先;
7. 了解数据安全与隐私保护机制,掌握常用脱敏技术;
8. 具备良好的沟通协调能力和团队合作意识,能够跨部门推动数据标准实施,具备技术文档编写与汇报能力;
9. 有在AI企业、大型互联网公司或数据服务类平台从事数据治理、数据中台建设经验者优先。
2026-06-11 12:28
IP属地:四川宜宾
职位福利
本科3-5年

福建国科信息科技有限公司
B轮 · 1000-9999人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
数据治理工程师
1.3-1.7万元/月
数据开发1-3年本科Shell要求数据开发经验MySQL/SQL Server非外包类数据平台开发经验数据仓库开发经验Oracle数据治理经验Python
宜宾 叙州区
大数据开发+待遇优厚+双休
1.1-1.8万元/月
数据开发3-5年本科云原生大数据架构Java要求数据开发经验Kafka原理/源码Spark原理/源码大数据引擎开发经验Flink原理/源码实时数仓开发经验数据平台开发经验FlinkHiveHive原
成都 武侯区
大数据开发工程师-数据平台
1.4-1.6万元/月
数据开发5-10年本科Java要求数据开发经验电商/零售行业经验非外包类制造业行业经验Spark数据平台开发经验Flink
成都 武侯区
数据开发工程师(AI核心自研项目,双休)
1.4-2.4万元/月
数据开发1-3年本科JavaClickhouse原理/源码要求数据开发经验ETL开发经验数据建模经验MySQL/SQL Server实时数仓开发经验非外包类其他计算机相关专业数据平台开发经验SQL
成都 双流区








