职位详情
岗位职责
1. 负责对知识库数据源进行系统质量评估,识别并量化影响AI应用效果的数据问题(如格式不规范、信息冗余/缺失、元数据不准确等)。参与制定和迭代数据清洗规则、数据标注规范等确保数据质量。
2. 参与从原始数据到AI知识单元(如结构化知识块、知识图谱实体/关系)的自动化处理流程。根据业务需求和测评发现,设计编写脚本执行特定的数据质量改进任务(如数据预处理、元数据增强、知识关联提取)。
3. 针对RAG为核心的检索系统,参与制定和迭代全面的、可复现的端到端评测方案,覆盖召回(向量检索、关键词检索、混合检索策略)、排序、生成等关键环节。负责构建和维护评测数据集与标准查询集,确保测评的客观性和有效性。
4. 深入分析检索测试结果,运用数据驱动的方法定位影响检索与生成效果的瓶颈,包括但不限于:数据质量、知识切分与组织方式、Embedding模型效果等。撰写专业、结构清晰的评测报告,提供量化数据支撑和具体、可落地的优化建议。
5. 开发与维护自动化评测框架、脚本和可视化工具,提升评测效率、覆盖度和结果可读性。负责沉淀与文档化评测方法论、最佳实践和标准操作流程,构建团队评测知识体系。
6. 参与定义关键的数据质量和线上检索监控指标与告警阈值。利用监控平台或工具进行日常效果跟踪,及时发现线上效果波动或异常,协同驱动问题排查与解决。
7. 完成上级交办的其他工作。
任职要求
1. 计算机、软件工程、数据科学、人工智能、自然语言处理等相关专业, 全日制统招本科及以上学历。
2. 2年以上 AI数据处理、RAG系统评测相关工作经验。
3. 深入理解并具备RAG架构的实践或评测经验,熟悉关键环节(如文档切分、Embedding、向量检索、上下文构建、LMM交互等)。
4. 有主流向量数据库(如Milvus、Qdrant、Faiss、PgVector等)的应用、调优或评测经验,熟悉其性能特点和适用场景。
5. 精通文本数据的清洗、解析、标准化和增强技术,擅长处理大规模非结构化/半结构化文本数据,有知识抽取、元数据生成等相关经验优先。
6. 熟悉倒排索引、向量空间模型、TF-IDF等传统检索技术;理解ANN算法的核心思想、常见实现及其优缺点;熟悉混合检索、多路召回、重排序(Re-ranking)基本原理和常用方法;深入理解文本嵌入(Text Embedding)原理,熟悉常用Embedding模型特点和选型。
7. 熟练使用python进行数据处理、脚本编写,有良好的编码规范。具备使用FastAPI,Flask等框架进行API设计与开发的能力,能够支持评测工具或小型服务的快速搭建。
8. 熟练使用Git进行版本控制,了解Docker技术。
9. 工作认真负责,注重细节,结果导向,能够在压力下保持高效输出。
加分项:
1. 有大模型应用经验,特别是在文档理解、智能问答、对话系统或知识图谱构建等领域。
2. 有LLM应用评测、Prompt Engineering相关经验。
3. 熟悉至少一种图数据库及在知识表示和推理中的应用。
1. 负责对知识库数据源进行系统质量评估,识别并量化影响AI应用效果的数据问题(如格式不规范、信息冗余/缺失、元数据不准确等)。参与制定和迭代数据清洗规则、数据标注规范等确保数据质量。
2. 参与从原始数据到AI知识单元(如结构化知识块、知识图谱实体/关系)的自动化处理流程。根据业务需求和测评发现,设计编写脚本执行特定的数据质量改进任务(如数据预处理、元数据增强、知识关联提取)。
3. 针对RAG为核心的检索系统,参与制定和迭代全面的、可复现的端到端评测方案,覆盖召回(向量检索、关键词检索、混合检索策略)、排序、生成等关键环节。负责构建和维护评测数据集与标准查询集,确保测评的客观性和有效性。
4. 深入分析检索测试结果,运用数据驱动的方法定位影响检索与生成效果的瓶颈,包括但不限于:数据质量、知识切分与组织方式、Embedding模型效果等。撰写专业、结构清晰的评测报告,提供量化数据支撑和具体、可落地的优化建议。
5. 开发与维护自动化评测框架、脚本和可视化工具,提升评测效率、覆盖度和结果可读性。负责沉淀与文档化评测方法论、最佳实践和标准操作流程,构建团队评测知识体系。
6. 参与定义关键的数据质量和线上检索监控指标与告警阈值。利用监控平台或工具进行日常效果跟踪,及时发现线上效果波动或异常,协同驱动问题排查与解决。
7. 完成上级交办的其他工作。
任职要求
1. 计算机、软件工程、数据科学、人工智能、自然语言处理等相关专业, 全日制统招本科及以上学历。
2. 2年以上 AI数据处理、RAG系统评测相关工作经验。
3. 深入理解并具备RAG架构的实践或评测经验,熟悉关键环节(如文档切分、Embedding、向量检索、上下文构建、LMM交互等)。
4. 有主流向量数据库(如Milvus、Qdrant、Faiss、PgVector等)的应用、调优或评测经验,熟悉其性能特点和适用场景。
5. 精通文本数据的清洗、解析、标准化和增强技术,擅长处理大规模非结构化/半结构化文本数据,有知识抽取、元数据生成等相关经验优先。
6. 熟悉倒排索引、向量空间模型、TF-IDF等传统检索技术;理解ANN算法的核心思想、常见实现及其优缺点;熟悉混合检索、多路召回、重排序(Re-ranking)基本原理和常用方法;深入理解文本嵌入(Text Embedding)原理,熟悉常用Embedding模型特点和选型。
7. 熟练使用python进行数据处理、脚本编写,有良好的编码规范。具备使用FastAPI,Flask等框架进行API设计与开发的能力,能够支持评测工具或小型服务的快速搭建。
8. 熟练使用Git进行版本控制,了解Docker技术。
9. 工作认真负责,注重细节,结果导向,能够在压力下保持高效输出。
加分项:
1. 有大模型应用经验,特别是在文档理解、智能问答、对话系统或知识图谱构建等领域。
2. 有LLM应用评测、Prompt Engineering相关经验。
3. 熟悉至少一种图数据库及在知识表示和推理中的应用。
2026-06-29 14:31
IP属地:上海
职位福利
本科1-3年用户画像/标签体系相关经验大数据处理经验自然语言处理经验机器学习经验KafkaSpark计算机相关专业Python

解螺旋(上海)科技有限公司
A轮 · 20-99人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
大数据挖掘与分析工程师(保险证券/现场)
1.3-1.7万元/月
数据挖掘3-5年本科Hive保险券商机器学习经验PandasSparkNumpy财务系统PythonSQL
上海 浦东新区
AI软件架构技术专家(数据获取与知识图谱)
5-6万元/月
数据挖掘5-10年本科Java大数据处理经验计算机相关专业知识图谱数据采集Python数学/统计相关专业AI Agent
上海 浦东新区









