1.Spider模板
scrapy默认创建的spider模板就是basic模板,创建spider文件的命令是:scrapy genspider dribbble dribbble.com,查看spider*模板的命令是:scrapy genspider --list;在项目中明确指明使用crawl生成模板生成spider的命令是:scrapy genspider -t crawl csdn www.csdn.net ;
import scrapy
from scrapy
.linkextractors
import LinkExtractor
from scrapy
.spiders
import CrawlSpider
, Rule
class CsdnSpider(CrawlSpider
):
name
= 'csdn'
allowed_domains
= ['www.csdn.net']
start_urls
= ['https://www.csdn.net/']
rules
= (
Rule
(LinkExtractor
(allow
=r
'Items/'), callback
='parse_item', follow
=True),
)
def parse_item(self
, response
):
return item
如果你依然在编程的世界里迷茫,
不知道自己的未来规划,
对python感兴趣,
这里推荐一下我的学习交流圈QQ群:
895 797 751,
里面都是学习python的,
2.CrawlSpider类介绍
CrawlSpider是Spider的派生类,目的是对全站信息爬取更加简单,爬取那些具有一定规则网站的常用的爬虫, 它基于Spider并有一些独特属性;
3.rules规则列表
语法:Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None),rules是Rule对象的集合,用于匹配目标网站并排除干扰;link_extractor:是一个LinkExtractor对象,其定义了如何从爬取到的页面提取链接;callback:从link_extractor中每获取到链接得到Responses时,会调用参数所指定的值作为回调函数,该回调 函数接收一个* response作为其一个参数;cb_kwargs:用于作为**kwargs参数,传递给callback;follow:是一个布尔值,指爬取了之后,是否还继续从该页面提取链接,然后继续爬下去, 默认是False;process_links:指定spider中哪个的函数将会被调用,从link_extractor中获取到链接列表时将会调用该函数 。该方法主要用来过滤;process_request:指定处理函数,根据该Rule提取到的每个Request时,该函数将会被调用,可以对Request进 行处理,该函数必须返回Request或者None;
4.LinkExtractors
LinkExtractors 的目的是提取链接,每个LinkExtractor有唯一的公共方法是extract_links(),它接收一个 Response对象,并返回一个scrapy.link.Link对象;Link Extractors要实例化一次,并且 extract_links 方法会根据不同的 response 调用多次提取链接;
主要参数:
allow:满足括号中”正则表达式”的值会被提取,如果为空,则全部匹配;deny:与这个正则表达式(或正则表达式列表)不匹配的url一定不提取;allow_domains:会被提取的连接的;deny_domains:一定不会被提取链接的domains;restrict_xpaths:使用xpath表达式,和allow共同作用过滤链接;
5.爬取的文章, 且提取URL和文章标题
from scrapy
.linkextractors
import LinkExtractor
from scrapy
.spiders
import CrawlSpider
, Rule
class DoubanSpider(CrawlSpider
):
name
= 'csdn'
allowed_domains
= ['blog.csdn.net']
start_urls
= ['https://blog.csdn.net']
rules
= (
Rule
(LinkExtractor
(allow
=r
'.*/article/.*'), callback
='parse_item', follow
=True),
)
def parse_item(self
, response
):
print('-'*100)
print(response
.url
)
title
= response
.css
('h1::text').extract
()[0]
print(title
)
print('-' * 100)
return None