职位详情
1、具备本科及以上学历,硕士研究生及以上学历优先考虑,计算机、数学、统计学等相关专业背景者优先;
2、ETL/ELT开发:设计并实现高效稳定的数据集成流程,完成来自业务数据库、日志、API及第三方平台等多源异构数据的抽取、清洗、转换与加载;
3、数据建模与治理:参与数据仓库分层架构(ODS/DWD/DWS/ADS)的设计与实施,制定统一数据标准,推进元数据管理、数据血缘追踪及数据质量监控体系的建设;
4、实时数据处理:基于Kafka、Flink、Spark Streaming等技术构建实时计算任务,支撑实时报表、风险控制、智能推荐等场景的数据需求;
5、性能优化:针对数据处理任务开展性能调优工作,涵盖SQL优化、资源调度策略、分区设计及小文件合并等方面,持续降低计算与存储开销;
6、工具链开发:研发自动化运维脚本、数据监控告警系统及自助式数据服务平台,提升数据团队的工作效率与协作能力;
7、技术演进:关注大数据生态前沿技术(如Iceberg、Hudi、Delta Lake、Doris、StarRocks),推动新技术在实际项目中的验证与落地应用;
8、熟悉大模型与智能体相关训练数据和测试数据的构建流程,理解大规模数据标注过程中的质量管控难点;
9、具备多模态大模型数据标注经验者优先,包括指令微调数据、思维链(CoT)数据标注,有处理百万级以上多模态标注数据经历者更佳;
10、具备扎实的编程能力,熟练掌握Python/Java/C++中至少一门编程语言;
11、了解主流的大模型训练与微调技术路线及其应用场景。
2、ETL/ELT开发:设计并实现高效稳定的数据集成流程,完成来自业务数据库、日志、API及第三方平台等多源异构数据的抽取、清洗、转换与加载;
3、数据建模与治理:参与数据仓库分层架构(ODS/DWD/DWS/ADS)的设计与实施,制定统一数据标准,推进元数据管理、数据血缘追踪及数据质量监控体系的建设;
4、实时数据处理:基于Kafka、Flink、Spark Streaming等技术构建实时计算任务,支撑实时报表、风险控制、智能推荐等场景的数据需求;
5、性能优化:针对数据处理任务开展性能调优工作,涵盖SQL优化、资源调度策略、分区设计及小文件合并等方面,持续降低计算与存储开销;
6、工具链开发:研发自动化运维脚本、数据监控告警系统及自助式数据服务平台,提升数据团队的工作效率与协作能力;
7、技术演进:关注大数据生态前沿技术(如Iceberg、Hudi、Delta Lake、Doris、StarRocks),推动新技术在实际项目中的验证与落地应用;
8、熟悉大模型与智能体相关训练数据和测试数据的构建流程,理解大规模数据标注过程中的质量管控难点;
9、具备多模态大模型数据标注经验者优先,包括指令微调数据、思维链(CoT)数据标注,有处理百万级以上多模态标注数据经历者更佳;
10、具备扎实的编程能力,熟练掌握Python/Java/C++中至少一门编程语言;
11、了解主流的大模型训练与微调技术路线及其应用场景。
2026-05-16 15:13
IP属地:北京
职位福利
本科5-10年车联网

深圳市法本信息技术股份有限公司
已上市 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >












