职位详情
岗位职责:
1. 负责处理多种来源和格式的文档(如PDF、扫描件、Word、网页等)的智能解析工作,涵盖OCR识别、版面结构分析、表格内容提取、公式识别等技术环节;
2. 设计并实施文档清洗与标准化流程,包括去噪、去重、格式统一化及元数据抽取等关键步骤;
3. 主导文档分块(Chunking)策略的设计与持续优化,提升后续检索与生成任务的效果;
4. 构建并维护从原始文档到向量库/大模型之间的数据处理管线(Pipeline),确保数据质量稳定且更新高效;
5. 持续迭代文档解析与检索性能,协同RAG系统完成端到端效果调优;
6. 关注文档智能理解、知识库构建、RAG等领域的前沿进展,推动新技术的实际应用落地。
岗位要求:
1. 计算机科学、人工智能、软件工程等相关专业背景,具备本科或以上学历;
2. 具备扎实的Python开发能力,熟练使用常见数据处理工具与框架;
3. 掌握OCR、版面分析、文档解析相关技术(如PaddleOCR、LayoutLM、Marker、Unstructured等)者优先;
4. 熟悉向量数据库(如Milvus、Qdrant、Faiss等)及Embedding模型的基本原理与应用场景;
5. 了解大语言模型及RAG技术体系,有实际项目实践经验者更佳;
6. 具备良好的沟通协作能力和自我驱动力,能独立开展问题分析与解决方案推进。
1. 负责处理多种来源和格式的文档(如PDF、扫描件、Word、网页等)的智能解析工作,涵盖OCR识别、版面结构分析、表格内容提取、公式识别等技术环节;
2. 设计并实施文档清洗与标准化流程,包括去噪、去重、格式统一化及元数据抽取等关键步骤;
3. 主导文档分块(Chunking)策略的设计与持续优化,提升后续检索与生成任务的效果;
4. 构建并维护从原始文档到向量库/大模型之间的数据处理管线(Pipeline),确保数据质量稳定且更新高效;
5. 持续迭代文档解析与检索性能,协同RAG系统完成端到端效果调优;
6. 关注文档智能理解、知识库构建、RAG等领域的前沿进展,推动新技术的实际应用落地。
岗位要求:
1. 计算机科学、人工智能、软件工程等相关专业背景,具备本科或以上学历;
2. 具备扎实的Python开发能力,熟练使用常见数据处理工具与框架;
3. 掌握OCR、版面分析、文档解析相关技术(如PaddleOCR、LayoutLM、Marker、Unstructured等)者优先;
4. 熟悉向量数据库(如Milvus、Qdrant、Faiss等)及Embedding模型的基本原理与应用场景;
5. 了解大语言模型及RAG技术体系,有实际项目实践经验者更佳;
6. 具备良好的沟通协作能力和自我驱动力,能独立开展问题分析与解决方案推进。
2026-06-02 12:17
IP属地:湖北武汉
职位福利
本科经验不限PythonOCRPADDLEOCRLAYOUTLMPIPELINECHUNKING

广东纬德信息科技股份有限公司
已上市 · 100-499人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
人工智能开发工程师
1-1.5万元/月
算法工程师经验不限硕士运筹优化算法深度学习大模型算法多模态算法算法工程化经验参加算法相关竞赛/获奖优秀开源项目经历模型加速/性能优化推荐算法Python
武汉 江夏区

先生 · CET中电技术今日活跃
计算机视觉开发工程师(机器人方向)(外勤)
2-4万元/月
算法工程师1-3年硕士C++Python嵌入式技术深度学习算法机器学习算法视觉图像算法运动控制算法推荐算法
武汉 洪山区

先生 · 盛视科技5日内活跃







