大模型数据处理

150-200元/天

徐汇区

孔先生

已实名

企业认证

上海家瑶网络科技有限公司

职位详情

Python

岗位职责：
1.负责数据的采集、归类与整理，保障数据质量达到既定标准；
2.参与数据标注方案的规划与执行，提高数据的准确性和稳定性；
3.配合团队完成数据处理流程中的各项任务，确保处理结果符合质量要求；
4.对数据开展基础分析工作，输出提升数据质量的可行性建议。

任职要求：
1.熟练掌握Python编程语言，熟悉其基础语法、常用数据结构（如列表、字典、集合）及流程控制语句。能编写简洁高效的代码完成数据处理任务，理解函数式编程与面向对象编程的核心理念并加以应用。
2.面向大模型常见的文本类数据，具备文本预处理能力，包括清洗、分词、词性识别和词干提取等操作。熟练运用NLTK（NaturalLanguageToolkit）或SpaCy工具库，实现去除HTML标签、特殊符号清理以及分词与词性标注等功能。
3.对大语言模型（如GPT系列、LLaMA等）所需数据类型有一定认知，了解训练数据在规模、质量、多样性方面对模型效果的影响。清楚为大模型构建适配数据的方法，包含标注规则制定及数据增强技术在数据准备阶段的应用场景。
4.具备独立排查和解决数据处理中各类问题的能力，能够使用调试工具（如Python的pdb调试器）快速定位代码异常。善于通过数据特征和程序输出判断问题成因，并提出合理解决方案。
5.对人工智能技术具备基本理解，能够借助AI工具辅助完成数据加工与分析任务。

2026-06-19 12:31

IP属地：上海

职位福利

本科经验不限ScrapyPyTorchPandasMySQL机器学习经验RedisNumpyPythonFlask