scrapy爬取网站的步骤:
1、创建项目;
在Windows shell中,项目名称:netease
2.定义Item容器;
3.编写爬虫进行&取;
选择器有很多种表达方式,用正则的方法虽然炫酷,但是对于html来说并不是实用,所以在scrapy中多用xpath()
4.存储内容
C:\Users\Administrator\Desktop\netease>scrapy crawl netease -o items.csv -t csv
可以保存csv和json格式的文件。
结果如下图:(我们得到了网页中的title和link) scrapy整体运行的框架如下: