职位详情
工作职责
负责高可用定向爬虫系统的方案设计、编码实现与长期运维,面向特定行业网站及合规B2B交易场景,实施多源异构数据的规模化、合法性采集。
深入分析主流反爬技术(如动态页面渲染、验证码验证机制、请求签名校验等),搭建并维护代理IP资源池,保障数据抓取行为满足网络安全与数据合规规范。
构建自动化ETL流程,利用Python及相关工具(如Pandas、正则表达式等)对HTML、文本类原始数据进行去重、清洗、结构化转换与标准化输出。
主导爬虫数据的存储架构设计、入库管理与流转效率优化,确保大规模数据的可靠存储与快速检索,为上层数据分析与AI模型训练提供稳定、高质量的数据支持。
任职资格
本科及以上学历,计算机、软件工程、信息科学等相关专业背景;拥有3–5年基于Python的数据开发经验,专注于网络爬虫系统建设与ETL处理方向。
熟练掌握Python语言及主流爬虫框架(如Scrapy、Requests),精通XPath、CSS选择器和正则表达式的应用;具备Selenium、Playwright等浏览器自动化工具的实际项目落地经验。
熟悉网络通信协议(HTTP/HTTPS/TCP)原理,具备一定的逆向分析能力,能够合理规避常见风控策略,严格遵守目标站点robots.txt规则及服务条款要求。
具有强烈的数据合规意识,思维条理清晰,代码书写规范,具备完善的异常处理机制与系统运维保障能力。
熟练操作MySQL或PostgreSQL数据库,具备百万级以上数据量的SQL编写与查询性能调优经验;了解Redis、MongoDB等非关系型数据库的适用场景与基本用法。
负责高可用定向爬虫系统的方案设计、编码实现与长期运维,面向特定行业网站及合规B2B交易场景,实施多源异构数据的规模化、合法性采集。
深入分析主流反爬技术(如动态页面渲染、验证码验证机制、请求签名校验等),搭建并维护代理IP资源池,保障数据抓取行为满足网络安全与数据合规规范。
构建自动化ETL流程,利用Python及相关工具(如Pandas、正则表达式等)对HTML、文本类原始数据进行去重、清洗、结构化转换与标准化输出。
主导爬虫数据的存储架构设计、入库管理与流转效率优化,确保大规模数据的可靠存储与快速检索,为上层数据分析与AI模型训练提供稳定、高质量的数据支持。
任职资格
本科及以上学历,计算机、软件工程、信息科学等相关专业背景;拥有3–5年基于Python的数据开发经验,专注于网络爬虫系统建设与ETL处理方向。
熟练掌握Python语言及主流爬虫框架(如Scrapy、Requests),精通XPath、CSS选择器和正则表达式的应用;具备Selenium、Playwright等浏览器自动化工具的实际项目落地经验。
熟悉网络通信协议(HTTP/HTTPS/TCP)原理,具备一定的逆向分析能力,能够合理规避常见风控策略,严格遵守目标站点robots.txt规则及服务条款要求。
具有强烈的数据合规意识,思维条理清晰,代码书写规范,具备完善的异常处理机制与系统运维保障能力。
熟练操作MySQL或PostgreSQL数据库,具备百万级以上数据量的SQL编写与查询性能调优经验;了解Redis、MongoDB等非关系型数据库的适用场景与基本用法。
2026-06-19 13:17
IP属地:陕西西安
职位福利
本科3-5年ScrapyPostgreSQLMySQLMongoDBrequests

陕西缔都医药化工有限公司
未融资 · 100-499人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
python后端开发工程师
1.5-2.2万元/月
Python经验不限本科ElasticsearchMySQLKafka运维开发经验Redis云计算经验Linux开发/部署经验Kubernetes
西安

先生 · 腾讯5日内活跃








