职位详情
岗位职责:
1.负责数据的采集、归类与整理,保障数据质量达到既定标准;
2.参与数据标注方案的规划与执行,提高数据的准确性和稳定性;
3.配合团队完成数据处理流程中的各项任务,确保处理结果符合质量要求;
4.对数据开展基础分析工作,输出提升数据质量的可行性建议。
任职要求:
1.熟练掌握Python编程语言,熟悉其基础语法、常用数据结构(如列表、字典、集合)及流程控制语句。能编写简洁高效的代码完成数据处理任务,理解函数式编程与面向对象编程的核心理念并加以应用。
2.面向大模型常见的文本类数据,具备文本预处理能力,包括清洗、分词、词性识别和词干提取等操作。熟练运用NLTK(NaturalLanguageToolkit)或SpaCy工具库,实现去除HTML标签、特殊符号清理以及分词与词性标注等功能。
3.对大语言模型(如GPT系列、LLaMA等)所需数据类型有一定认知,了解训练数据在规模、质量、多样性方面对模型效果的影响。清楚为大模型构建适配数据的方法,包含标注规则制定及数据增强技术在数据准备阶段的应用场景。
4.具备独立排查和解决数据处理中各类问题的能力,能够使用调试工具(如Python的pdb调试器)快速定位代码异常。善于通过数据特征和程序输出判断问题成因,并提出合理解决方案。
5.对人工智能技术具备基本理解,能够借助AI工具辅助完成数据加工与分析任务。
1.负责数据的采集、归类与整理,保障数据质量达到既定标准;
2.参与数据标注方案的规划与执行,提高数据的准确性和稳定性;
3.配合团队完成数据处理流程中的各项任务,确保处理结果符合质量要求;
4.对数据开展基础分析工作,输出提升数据质量的可行性建议。
任职要求:
1.熟练掌握Python编程语言,熟悉其基础语法、常用数据结构(如列表、字典、集合)及流程控制语句。能编写简洁高效的代码完成数据处理任务,理解函数式编程与面向对象编程的核心理念并加以应用。
2.面向大模型常见的文本类数据,具备文本预处理能力,包括清洗、分词、词性识别和词干提取等操作。熟练运用NLTK(NaturalLanguageToolkit)或SpaCy工具库,实现去除HTML标签、特殊符号清理以及分词与词性标注等功能。
3.对大语言模型(如GPT系列、LLaMA等)所需数据类型有一定认知,了解训练数据在规模、质量、多样性方面对模型效果的影响。清楚为大模型构建适配数据的方法,包含标注规则制定及数据增强技术在数据准备阶段的应用场景。
4.具备独立排查和解决数据处理中各类问题的能力,能够使用调试工具(如Python的pdb调试器)快速定位代码异常。善于通过数据特征和程序输出判断问题成因,并提出合理解决方案。
5.对人工智能技术具备基本理解,能够借助AI工具辅助完成数据加工与分析任务。
2026-06-19 12:31
IP属地:上海
职位福利
本科经验不限ScrapyPyTorchPandasMySQL机器学习经验RedisNumpyPythonFlask

上海家瑶网络科技有限公司
不需要融资 · 20-99人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
Python开发工程师
1.2-1.8万元/月
Python3-5年本科国内院校优先接受无前端经验/技能GolangDjangoFlaskKubernetesNginxElasticsearchMySQLRedisPostgreSQL
上海 徐汇区









