首页 › 软件 › 正文

开源框架爬虫

数据篇-爬虫开源框架推荐

风君子软件 2023-12-15 12

花了一天的时间调研了一下主流的开源技术框架。

经过反复查看关键指标和技术框架的扩展性，筛选了一些实用的开源框架。

爬虫框架

项目	项目简介	贡献者数	主要语言	第一次发版时间
Scrapy	Scrapy 是一种快速的高性能网络爬虫框架，用于抓取网站并从其页面中提取结构化数据。众多爬虫都是基于她开发的。广泛应用于从数据挖掘、数据监控和自动化测试。	502	python	2016-10-03
webmagic	webmagic是一个开源的Java垂直爬虫框架，目标是简化爬虫的开发流程，让开发者专注于逻辑功能的开发。webmagic的简化了爬虫的流程，如果您是一个java的忠实拥护者，她是一个很好的学习和使用框架。	44	java	2013-8-20
crawlab	基于Golang的分布式爬虫管理平台，支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。	27	go	2019-4-23
crawlee	Crawlee 是使用TypeScript基于Apify SDK 开发的爬虫框架，在防阻塞功能上有所努力并取得进展。具备模仿模仿人的行为学特性，能够突破一般的反扒识别技术。Crawlee 是提供了抓取网络链接、抓取数据并将其存储到磁盘或云中的工具。	57	typescrip	2019-7-9
katana	自称为下一代爬虫框架，使用Golang语言开发，值得关注。	15	go	2022-11-7

爬虫周边功能

项目	项目简介	贡献者数	最后一次版本
spider-flow	图形化爬虫流程框架，可以算是爬虫的低代码平台。2020年上半年停止更新。	17	2020-4-13
WechatSogou	基于搜狗微信搜索的微信公众号爬虫接口。18年停更，有借鉴意义。	10	2018-5-5
scrapy-redis	Scrapy 的redis 缓存组件	29	N.A.
ECommerceCrawlers	针对国内互联网大厂网站的爬虫，22年上半年停更，感兴趣可以去调研一下。	14	2022-3-6
Crawler_Illegal_Cases_In_China	国内爬虫合规相关的文档	1	N.A.
GoogleScraper	搜索引擎爬虫，支持多搜索引擎（Google、Yandex、Bing、Duckduckgo 等）	11	2020-5-12

如果感觉对您有帮助的话，请关注，点赞，收藏，转发，您的鼓励是我最大的动力。

为什么出现新零售如何做好新零售？

看了会哭，APP推广沙龙高手分享精华纪要版