职位详情
工作职责
1. 对接大模型研发团队的实际需求,规划并构建音视频数据的持续采集与迭代流程,确保训练所需数据的高效稳定供应。
2. 主导数据从采集到交付的全流程管理,涵盖清洗去重、格式标准化、隐私脱敏及风险分类,形成规范化的训练数据集并建立统一接入机制。
3. 开拓高质量数据来源,持续优化数据处理 pipeline,提升预训练数据的覆盖广度、类型多样性和内容质量,及时响应研发侧的数据诉求并推动问题闭环。
4. 关注人工智能前沿进展(如多模态融合、Agent 架构、Harness Engineering),研究其在复杂数据任务中的落地潜力,促进技术驱动的效率提升。
任职要求
1. 计算机、数据科学、电子信息或相关专业本科及以上学历,具备出色的跨团队协作与沟通能力。
2. 具备2年以上工程开发经验,熟练使用Python(优先)或Golang等编程语言,有音视频数据处理背景者更佳。
3. 掌握Prompt工程方法,熟悉语音处理技术或NLP基础模型,能够理解大模型预训练阶段的数据需求逻辑。
4. 熟悉数据仓库查询语言(HSQL)及数据分析工具(Pandas、Tableau),可独立开展数据质量评估与优化工作。
1. 对接大模型研发团队的实际需求,规划并构建音视频数据的持续采集与迭代流程,确保训练所需数据的高效稳定供应。
2. 主导数据从采集到交付的全流程管理,涵盖清洗去重、格式标准化、隐私脱敏及风险分类,形成规范化的训练数据集并建立统一接入机制。
3. 开拓高质量数据来源,持续优化数据处理 pipeline,提升预训练数据的覆盖广度、类型多样性和内容质量,及时响应研发侧的数据诉求并推动问题闭环。
4. 关注人工智能前沿进展(如多模态融合、Agent 架构、Harness Engineering),研究其在复杂数据任务中的落地潜力,促进技术驱动的效率提升。
任职要求
1. 计算机、数据科学、电子信息或相关专业本科及以上学历,具备出色的跨团队协作与沟通能力。
2. 具备2年以上工程开发经验,熟练使用Python(优先)或Golang等编程语言,有音视频数据处理背景者更佳。
3. 掌握Prompt工程方法,熟悉语音处理技术或NLP基础模型,能够理解大模型预训练阶段的数据需求逻辑。
4. 熟悉数据仓库查询语言(HSQL)及数据分析工具(Pandas、Tableau),可独立开展数据质量评估与优化工作。
2026-05-17 15:11
IP属地:北京
职位福利
本科1-3年音频标注视频标注数据生命周期管理多模态数据处理大模型预训练

中电金信软件有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >











