经过反复查看关键指标和技术框架的扩展性,筛选了一些实用的开源框架。
爬虫框架
项目 |
项目简介 |
贡献者数 |
主要语言 |
第一次发版时间 |
Scrapy |
Scrapy 是一种快速的高性能网络爬虫框架,用于抓取网站并从其页面中提取结构化数据。 众多爬虫都是基于她开发的。广泛应用于从数据挖掘、数据监控和自动化测试。 |
502 |
python |
2016-10-03 |
webmagic |
webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的简化了爬虫的流程,如果您是一个java的忠实拥护者,她是一个很好的学习和使用框架。 |
44 |
java |
2013-8-20 |
crawlab |
基于Golang的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。 |
27 |
go |
2019-4-23 |
crawlee |
Crawlee 是 使用TypeScript基于Apify SDK 开发的爬虫框架,在防阻塞功能上有所努力并取得进展。 具备模仿模仿人的行为学特性,能够突破一般的反扒识别技术。Crawlee 是提供了抓取网络链接、抓取数据并将其存储到磁盘或云中的工具。 |
57 |
typescrip |
2019-7-9 |
katana |
自称为下一代爬虫框架,使用Golang语言开发,值得关注。 |
15 |
go |
2022-11-7 |
爬虫周边功能
项目 |
项目简介 |
贡献者数 |
最后一次版本 |
spider-flow |
图形化爬虫流程框架,可以算是爬虫的低代码平台。2020年上半年停止更新。 |
17 |
2020-4-13 |
WechatSogou |
基于搜狗微信搜索的微信公众号爬虫接口。18年停更,有借鉴意义。 |
10 |
2018-5-5 |
scrapy-redis |
Scrapy 的redis 缓存组件 |
29 |
N.A. |
ECommerceCrawlers |
针对国内互联网大厂网站的爬虫,22年上半年停更,感兴趣可以去调研一下。 |
14 |
2022-3-6 |
Crawler_Illegal_Cases_In_China |
国内爬虫合规相关的文档 |
1 |
N.A. |
GoogleScraper |
搜索引擎爬虫,支持多搜索引擎(Google、Yandex、Bing、Duckduckgo 等) |
11 |
2020-5-12 |
如果感觉对您有帮助的话,请关注,点赞,收藏,转发,您的鼓励是我最大的动力。