scrapy实践简记

it2025-04-24 39

1. Scrapy的架构：

使用Scrapy框架，需要自己的应用编写Spider和ItemPipeline的部分，如需要也会重写Middlewares

具体地说，我们需要实现三个类：

Spider类：用来进行网页解析，定义下一个爬取网页的路径，具体通过重写parse()实现；

Item类：用来格式化的定义所爬取的数据；

ItemPipeline类：用来处理爬取的数据，即Item类，通过重写三个函数open_spider(),process_item()和close_spider()实现

2.Spider类

parse()函数用来实现:

a. 从response提取所需要的信息

b. 将所提取数据部分通过yield抛送给scrapy engine，后续通过ItemPipleline来处理数据item

c. 将所提取地址部分通过yield抛送给scrapy engine，这样可以爬取下一个地址

3.ItemPipeline类

a. open_spider()：指明Spider类执行的时候的动作，比如链接数据库

b. process_item()：处理数据item，比如向数据库提交INSERT语句

c. close_spider()：Spider执行完成时的动作，比如COMMIT事务

4. FAQ

a. 多层网页提取：通过scrapy.Request的meta和callback来控制，meta用来传递数据，callback用来指明下级页面的parse()函数

b. 须登陆的网站：用cookie作session保持

最新回复(0)