Jason

Posted on Jul 16

网络爬虫架构设计

#crawler #爬虫 #架构设计 #代理ip

网络爬虫是一种自动化程序，它遍历互联网，收集和索引网页内容。架构设计旨在实现高并发处理和去重，并确保爬虫的健壮性和可维护性。本文将详细解析爬虫系统的各个组件和它们之间的交互关系。

1. 总览

整个系统组件按顺序如下：

URL Seeder
Bloom Filter Storage
Bloom Filter Search
URL Populator
URL Storage
URL Supplier Service
URL Queue
DNS Resolution Service
HTML Fetcher and Renderer
HTML Cached Storage
HTML Permanent Storage
AWS Step Functions Workflow
- URL Filter
- URL Extractor
- Duplicate Detection
- Failed Message Queue

2. 组件解析

2.1 URL Seeder

URL Seeder 负责向系统提供初始URL。这些URL进入系统后会被进行处理以便进一步爬取。URL Seeder的作用相当于网络爬虫的启动引擎。它可能从某个文件、数据库或者API中读取初始的URL集。

2.2 Bloom Filter Storage 和 Bloom Filter Search

布鲁姆过滤器(Bloom Filter)是一个概率性数据结构，用于判断一个元素是否已经存在。布鲁姆过滤器能够高效判断URL是否已经被爬取，从而避免重复爬取。这部分包括两个组件：

Bloom Filter Storage：存储布鲁姆过滤器的数据。
Bloom Filter Search：通过查找布鲁姆过滤器的数据来判断URL是否已经处理。

2.3 URL Populator

如果URL通过了布鲁姆过滤器的检查，URL Populator会将这些URL封装并准备好供后续处理。这个组件的作用是清洗和预处理URL，确保格式规范且无重复。

2.4 URL Storage

已清洗后的URL会被存入URL Storage。这是一个临时存储区域，等待进一步处理或者被从队列中取出。

2.5 URL Supplier Service

URL Supplier Service负责从URL Storage中提取准备处理的URL，并将它们推送到URL 队列中。这一过程通过轮询实现，确保URLs以合适的速率进入系统的后续步骤。

2.6 URL Queue

URL Queue是一个消息队列系统，用于存放待处理的URL。这种设计使整个系统具有很好的解耦性，并能够实现负载均衡和按需扩展。

2.7 DNS Resolution Service

在爬取网页前，需要将域名解析为具体的IP地址，这就是DNS Resolution Service的作用。该服务将解析失败的消息发送到URL DLQ（死信队列），从而保证系统的鲁棒性。

2.8 HTML Fetcher and Renderer

HTML Fetcher and Renderer组件负责从互联网获取HTML内容，并将其渲染。这一过程中，它会处理所有网络请求和响应，并将获取到的HTML文档存储到缓存或持久存储中。

2.9 HTML Cached Storage 和 HTML Permanent Storage

HTML文档被分为两种存储方式：

HTML Cached Storage：用于存储临时和短期使用的HTML文档，提高访问速度。
HTML Permanent Storage：用于长期存储HTML文档，确保数据持久性和后续可用性。

2.10 AWS Step Functions Workflow

这部分是系统的核心工作流程，包括以下几个步骤：

URL Filter：对URLs进行过滤，筛选出有价值的URL。
URL Extractor：从HTML中提取新的URLs并加入爬取队列。
Duplicate Detection：检测并去除重复的URLs，确保爬取工作高效、不浪费资源。
Failed Message Queue：存储处理失败的URLs供后续处理。

3. 工作流程

整个爬虫系统的工作流程如下：

URL Seeder初始化提供一组URL。
这些URL通过Bloom Filter Search检查，判断是否已经爬取过。
未爬取过的URL由URL Populator进行封装，并存入URL Storage。
URL Supplier Service轮询URL Storage，将URL推送到URL Queue。
URL从URL Queue中出列，进入DNS Resolution Service进行域名解析。
成功解析的URL由HTML Fetcher and Renderer进行HTML抓取并渲染。
抓取到的HTML文档存入HTML Cached Storage或HTML Permanent Storage。
AWS Step Functions Workflow对抓取的HTML进行处理，提取新URL、过滤和去重，并将有效URL重新推送到URL Queue。

4. 系统优点

高效性：通过布鲁姆过滤器和消息队列系统，最大限度地提高处理效率和并发能力。
可扩展性：模块化设计和消息队列确保系统能够按需扩展。
容错性：处理失败的URL会记录在失败队列中，确保系统鲁棒性。
去重性：通过布鲁姆过滤器和重复检测，确保URL不被重复爬取。

5. 结论

这个网络爬虫架构设计非常注重高效性、可扩展性和容错性。通过使用布鲁姆过滤器、消息队列和AWS Step Functions Workflow，每个阶段都能独立运行且高效协同。这个系统适用于对大量网页进行爬取和数据采集的场景，确保高效稳定地获取和处理数据。

需要用到的资源

DEV Community