【Scrapy学习笔记】跟着例子学爬虫

it2022-05-05  81

scrapy爬取网站的步骤:

1、创建项目;

在Windows shell中,项目名称:netease

2.定义Item容器;

3.编写爬虫进行&取;

选择器有很多种表达方式,用正则的方法虽然炫酷,但是对于html来说并不是实用,所以在scrapy中多用xpath()

4.存储内容

C:\Users\Administrator\Desktop\netease>scrapy crawl netease -o items.csv -t csv

可以保存csv和json格式的文件。

结果如下图:(我们得到了网页中的title和link) scrapy整体运行的框架如下:


最新回复(0)