职位详情
AI数据研发工程师
岗位职责:
•参与多源渠道的原始结构化与非结构化数据的采集、处理、清洗及特征提取工作,涵盖网页信息、网络流量、音视频内容等多样化数据类型
•联动模型算法团队与数据采集团队,持续监控数据质量,分析数据对模型性能的影响,推动构建数据系统的迭代机制
•建立并优化数据质量评估体系,提升数据在多样性、覆盖性方面的综合水平
•设计高效的数据存储架构、加载流程与采样策略,支撑模型训练效率提升
要求:
•硕士及以上学历,计算机科学、通信工程、数学或相关专业背景,具备海外学习经历者优先考虑
•精通至少一种编程语言(如Python、Java等)
•熟悉大模型场景下的数据采样方法论
•掌握数据增强与合成相关技术手段
•具备扎实的数据分析能力,能够针对文本或多模态数据提取核心特征(如词频统计、语义分布、数据偏差识别、网络流量特征分析等)
优先条件:
具备网络流量数据清洗实践经验者优先
有数据集构建与数据质量管控经验者优先
参与过开源高质量数据集项目建设者优先
参与过开源微调模型相关的数据治理与评估工作优先
岗位职责:
•参与多源渠道的原始结构化与非结构化数据的采集、处理、清洗及特征提取工作,涵盖网页信息、网络流量、音视频内容等多样化数据类型
•联动模型算法团队与数据采集团队,持续监控数据质量,分析数据对模型性能的影响,推动构建数据系统的迭代机制
•建立并优化数据质量评估体系,提升数据在多样性、覆盖性方面的综合水平
•设计高效的数据存储架构、加载流程与采样策略,支撑模型训练效率提升
要求:
•硕士及以上学历,计算机科学、通信工程、数学或相关专业背景,具备海外学习经历者优先考虑
•精通至少一种编程语言(如Python、Java等)
•熟悉大模型场景下的数据采样方法论
•掌握数据增强与合成相关技术手段
•具备扎实的数据分析能力,能够针对文本或多模态数据提取核心特征(如词频统计、语义分布、数据偏差识别、网络流量特征分析等)
优先条件:
具备网络流量数据清洗实践经验者优先
有数据集构建与数据质量管控经验者优先
参与过开源高质量数据集项目建设者优先
参与过开源微调模型相关的数据治理与评估工作优先
2026-02-05 14:12
IP属地:北京
职位福利
硕士及以上1-3年发表算法相关优秀论文Java参加算法相关竞赛/获奖优秀开源项目经历PythonSQL

新华三技术有限公司
· 6人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
算法工程师自然语言处理
2-2.3万元/月
自然语言处理算法5-10年本科及以上C/C++搜索算法机器学习深度学习大模型算法大数据处理工具(Spark/Hadoop/Hive)推荐算法Python
北京 海淀区

金女士 · 中科软昨日活跃
高级NLP算法工程师
2.8-3万元/月
自然语言处理算法1-3年博士及以上情感分析发表算法相关优秀论文分布式训练大模型算法算法工程化经验强化学习参加算法相关竞赛/获奖知识图谱文本生成嵌入式开发大数据处理工具(Spark/Hadoop/Hive)
北京 海淀区

徐女士 · 上海追梦逐光科技昨日活跃
自然语言处理算法
300-400元/天
自然语言处理算法经验不限本科及以上发表算法相关优秀论文意图挖掘语义理解深度学习算法工程化经验大模型算法参加算法相关竞赛/获奖Python
北京 海淀区

刘先生 · 小米昨日活跃
自然语言处理-算法研究员-北京/深圳/上海
3.5-6.5万元/月
自然语言处理算法经验不限硕士及以上发表算法相关优秀论文对话系统分布式训练大模型算法算法工程化经验参加算法相关竞赛/获奖知识图谱文本生成
北京 海淀区

王先生 · 腾讯昨日活跃
AIGC提示词工程师-六险一金+13薪+双休
1.2-2.4万元/月
自然语言处理算法1年以下本科及以上语音算法对话系统语义理解大模型算法算法工程化经验模型训练RAG模型微调Python模型加速/性能优化
北京 海淀区

文女士 · 中软国际昨日活跃





