花了一天的时间调研了一下主流的开源技术框架

经过反复查看关键指标和技术框架的扩展性,筛选了一些实用的开源框架。


爬虫框架

项目

项目简介

贡献者数

主要语言

第一次发版时间

Scrapy

Scrapy 是一种快速的高性能网络爬虫框架,用于抓取网站并从其页面中提取结构化数据。 众多爬虫都是基于她开发的。广泛应用于从数据挖掘、数据监控和自动化测试。

502

python

2016-10-03

webmagic

webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的简化了爬虫的流程,如果您是一个java的忠实拥护者,她是一个很好的学习和使用框架。

44

java

2013-8-20

crawlab

基于Golang的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言以及多种爬虫框架。

27

go

2019-4-23

crawlee

Crawlee 是 使用TypeScript基于Apify SDK 开发的爬虫框架,在防阻塞功能上有所努力并取得进展。

具备模仿模仿人的行为学特性,能够突破一般的反扒识别技术。Crawlee 是提供了抓取网络链接、抓取数据并将其存储到磁盘或云中的工具。

57

typescrip

2019-7-9

katana

自称为下一代爬虫框架,使用Golang语言开发,值得关注。

15

go

2022-11-7


爬虫周边功能

项目

项目简介

贡献者数

最后一次版本

spider-flow

图形化爬虫流程框架,可以算是爬虫的低代码平台。2020年上半年停止更新。

17

2020-4-13

WechatSogou

基于搜狗微信搜索的微信公众号爬虫接口。18年停更,有借鉴意义。

10

2018-5-5

scrapy-redis

Scrapy 的redis 缓存组件

29

N.A.

ECommerceCrawlers

针对国内互联网大厂网站的爬虫,22年上半年停更,感兴趣可以去调研一下。

14

2022-3-6

Crawler_Illegal_Cases_In_China

国内爬虫合规相关的文档

1

N.A.

GoogleScraper

搜索引擎爬虫,支持多搜索引擎(Google、Yandex、Bing、Duckduckgo 等)

11

2020-5-12


如果感觉对您有帮助的话,请关注,点赞,收藏,转发,您的鼓励是我最大的动力。