scrapy实践简记

it2025-04-24  13

1. Scrapy的架构:

使用Scrapy框架,需要自己的应用编写Spider和ItemPipeline的部分,如需要也会重写Middlewares

具体地说,我们需要实现三个类:

Spider类:用来进行网页解析,定义下一个爬取网页的路径,具体通过重写parse()实现;

Item类:用来格式化的定义所爬取的数据;

ItemPipeline类:用来处理爬取的数据,即Item类,通过重写三个函数open_spider(),process_item()和close_spider()实现

 

2.Spider类

parse()函数用来实现:

a. 从response提取所需要的信息

b. 将所提取数据部分通过yield抛送给scrapy engine,后续通过ItemPipleline来处理数据item

c. 将所提取地址部分通过yield抛送给scrapy engine,这样可以爬取下一个地址

3.ItemPipeline类

a. open_spider():指明Spider类执行的时候的动作,比如链接数据库

b. process_item():处理数据item,比如向数据库提交INSERT语句

c. close_spider():Spider执行完成时的动作,比如COMMIT事务

4. FAQ

a. 多层网页提取:通过scrapy.Request的meta和callback来控制,meta用来传递数据,callback用来指明下级页面的parse()函数

b. 须登陆的网站:用cookie作session保持

最新回复(0)