职位详情
岗位职责:
1、负责定向数据的采集与爬取、解析处理、入库及备份等数据日常工作;
2、研究主流网站的爬取方法及数据清洗处理,负责非定向数据的清洗、整理、整合及合并等工作;
3、及时解决生产系统上的问题;
岗位要求:
1、1-3年爬虫系统开发经验;
2、使用技术框架包括但不限于:WebCollector,Selenium
3、熟练使用正则表达式、xpath解析数据、搜索策略、算法、数据聚类、重组技术,熟悉反爬虫
4、熟练掌握分布式爬虫,日采集量千万级别以上,并充分了解抓取策略(1、深度优先遍历策略2、宽度优先遍历策略3、反向链接数策略等);、
5、熟悉海量代理IP池建设,复杂验证码识别
6、熟悉抓包工具(Wireshark,Fillder等),熟悉网络通信编程,网页抓取原理及技术,熟悉HTTP传输协议,能模拟各类操作爬虫;熟悉爬虫实现原理机制;对分布式和多线程技术有一定了解;
7、有较强的主动学习能力、逻辑思维能力、分析并解决问题的能力;
8、较强的责任心及团队合作精神,有独立解决问题和快速学习并应用新技术的能力。
1、负责定向数据的采集与爬取、解析处理、入库及备份等数据日常工作;
2、研究主流网站的爬取方法及数据清洗处理,负责非定向数据的清洗、整理、整合及合并等工作;
3、及时解决生产系统上的问题;
岗位要求:
1、1-3年爬虫系统开发经验;
2、使用技术框架包括但不限于:WebCollector,Selenium
3、熟练使用正则表达式、xpath解析数据、搜索策略、算法、数据聚类、重组技术,熟悉反爬虫
4、熟练掌握分布式爬虫,日采集量千万级别以上,并充分了解抓取策略(1、深度优先遍历策略2、宽度优先遍历策略3、反向链接数策略等);、
5、熟悉海量代理IP池建设,复杂验证码识别
6、熟悉抓包工具(Wireshark,Fillder等),熟悉网络通信编程,网页抓取原理及技术,熟悉HTTP传输协议,能模拟各类操作爬虫;熟悉爬虫实现原理机制;对分布式和多线程技术有一定了解;
7、有较强的主动学习能力、逻辑思维能力、分析并解决问题的能力;
8、较强的责任心及团队合作精神,有独立解决问题和快速学习并应用新技术的能力。
2026-06-02 14:55
IP属地:广东
职位福利
大专

深圳通达天下国际旅行社有限公司
未融资 · 100-499人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










